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自从 2013 年 加 入 Ceph 社 区 以 来 ， 我 一 直 想 写 一 本 分 析 Ceph 源 码 的 书 ， 但 是 两 年 多 来 提交 了 数 万 行 的 代码 后 ， 我 渐渐 放下 了 这 个 事情 。Ceph 每 个 月 、 每 周 都 会 发 生 巨 大 变化 ， 我 总 是 想 让 Ceph 源 码 爱好 者 
有 


看 到 最 新 最 棒 的 设计 和 实现 ， 社 区 一 线 的 模块 维护 和 每 周 数 十 个 代码 提交 集 的 阅读 ， 让 我 很 难 有 时 间 回 顾 和 把 握 其 他 Ceph 爱 好 者 的 疑问 和 需求 点 。 
今天 看 到 这 本 书 让 我 非常 意外 ， 作 者 常 涛 把 整个 Ceph 源 码 树 肢解 得 恰到好处 ， 如 应 丁 解 牛 般 将 Ceph 的 核心 思想 和 实现 展露 出 来 。 虽然 目前 Ceph 分 分 钟 都 有 新 的 变化 ， 但 无 论 是 新 的 模块 设计 ， 还 是 重 构 


已 有 逻辑 ， 都 是 已 有 思想 的 翻新 和 延续 ， 这 些 才 是 众多 Ceph 开 发 者 能 十 年 如 一 日 改进 的 秘密 ! 
我 跟 作 者 常 涛 虽然 只 有 一 面 之 缘 ， 但 是 在 开源 社区 中 的 交流 已 经 足够 成 为 彼此 的 相知 。 他 对 于 分 布 式 存储 的 设计 和 实现 都 有 独到 见解 ， 其 代码 阅读 和 理解 灵感 更 是 超群 。 我 在 年 前 看 到 他 一 些 对 Ceph 核 


心 模块 的 创新 性 理解 ， 相 信 这 些 都 通过 这 本 书展 现 出 来 了 。 
这 本 书 是 目前 我 所 看 到 的 从 代码 角度 解读 Ceph 的 最 好 作品 ， 即 使 在 全 球 范围 内 ， 都 没有 类 似 的 书籍 能 够 与 之 媳 美 。 相 信 每 个 Ceph 爱 好 者 都 能 从 这 本 书 中 找到 自己 心中 某 些 疑问 的 解答 途径 
作为 Ceph 社 区 的 主要 开发 者 ， 我 也 想 在 这 里 强调 Ceph 的 魅力 ， 希 望 每 个 读者 都 能 充分 感受 到 Ceph 社 区 生机 勃勃 的 态势 。Ceph 是 开源 世界 中 存储 领域 的 一 个 里 程 碑 ! 在 过 去 很 难 想像 ， 从 IT 巨 无 霸 们 组 成 
的 巨大 存储 壁垒 中 能 够 诞生 一 个 真正 被 大 量 用 户 使 用 并 投入 生产 环境 的 开源 存储 项 目 ， 而 Ceph 这 个 开源 存储 项 目 已 经 成 为 全 球 众 多 海量 存储 项 目的 主要 选择 。 


众所周知 ， 在 过 去 十 年 里 ，[T 技 术 领 域 中 巨大 的 创新 项 目 很 多 来 自 于 开源 世界 ， 从 垄断 大 数据 的 Hadoop、Spark， 到 风靡 全 球 的 Docker， 都 证 明了 开源 力量 推动 了 新 技术 的 产生 与 发 展 。 而 再 往 以 前 看 十 
年 ， 从 Unix 到 Linux， 从 Oracle 到 MySQL/PostgreSQL， 从 VMWare 到 KVM， 开 源 世界 从 传统 商业 技术 继承 并 给 用 户 带 来 更 多 的 选择 。 处 于 开源 社区 一 线 的 我 欣喜 地 看 到 ， 在 代 基 础 设施 领域 ， 越 来 越 多 的 创业 


公司 从 创立 之 初 就 以 开源 为 基石 ， 而 越 来 越 多 的 商业 技术 公司 也 受益 于 开源 ， 大 量 的 复杂 商业 软件 基于 开源 分 布 式 数据 库 、 缓 存 存 储 、 中 间 件 构建 。 相 信 开 源 的 Ceph 也 将 成 为 IT 创新 的 驱动 力 。 正 如 Sage 
王 豪迈 ，XSKY 公 司 CTO 
2016 年 9 月 8 日 


Weil 在 2016 Ceph Next 会 议 上 所 说 ，Ceph 将 成 为 存储 里 的 Linux! 


串 


前 


高 可 用 、 可 扩展 的 特性 ， 乘 着 开源 云 计 算 管理 系统 OpenStack 的 东风 ， 迅 速成 为 最 热门 的 开源 分 布 式 


随 着 云 计算 技术 的 兴起 和 普及 ， 云 计算 基石 : 分 布 式 共享 存储 系统 受到 业界 的 重视 。Ceph 以 其 稳定 


存储 系统 。 
方面 有 比较 好 的 了 解 ， 其 次 要 有 修复 漏洞 的 能 力 。 这 些 都 是 在 采用 开源 分 布 式 存储 系统 时 所 面临 的 挑战 。 
以 及 boost 库 和 STL 库 非常 熟悉 ， 


语言 


Ceph 作 为 一 个 开源 的 分 布 式 存储 系统 ， 人 人 都 可 以 免费 获得 其 源 代码 ， 并 能 够 安装 部 署 ， 但 是 并 不 等 于 人 人 都 能 用 起 来 ， 人 人 都 能 用 好 。 用 好 一 个 开源 分 布 式 存储 系统 ， 首 先 要 对 其 架构 、 功 能 原理 等 
阅读 Ceph 源 代码 ， 不 但 需要 对 C++ 还 需要 有 分 布 式 存储 系 


要 用 好 Ceph， 就 必须 深入 了 解 和 掌握 Ceph 源 代码 。Ceph 源 代码 的 实现 被 公认 为 比较 复杂 ， 阅 读 难度 较 大 
统 相关 的 基础 知识 以 及 对 实现 原理 的 深刻 理解 ， 最 后 还 需要 对 Ceph 框 架 和 设计 原理 以 及 具体 的 实现 细节 有 很 好 的 把 握 。 所 以 Ceph 源 代码 的 阅读 是 相当 有 挑战 性 的 。 


本 着 对 Ceph 源 代码 的 浓厚 兴趣 以 及 实践 工作 的 需要 ， 需 要 对 Ceph 在 源 代码 层级 有 比较 深入 的 了 解 。 当 时 笔者 尽 可 能 地 搜索 有 关 Ceph 源 代码 的 介绍 ， 发 现 这 方面 的 资料 比较 少 ， 笔 者 只 能 自己 对 着 Ceph 源 
代码 开始 了 比较 艰辛 的 阅读 之 旅 。 在 这 个 过 程 中 ， 每 一 个 小 的 进步 都 来 之 不 易 ， 理 解 一 些 实现 细节 ， 都 需要 对 源 代码 进 行 反复 地 推 茂 和 琢磨 。 自 己 在 阅读 的 过 程 中 ， 特 别 希 望 有 人 能 够 帮助 理 清 整体 代码 的 


电路， 能够 解答 一 下 关键 的 实现 细节 。 本 书 就 是 秉承 这 样 一 个 简单 的 目标 ,希望 指引 和 帮助 广大 Ceph 爱 好 者 更 好 地 理解 和 掌握 Ceph 源 代码 。 
本 书面 向 热爱 Ceph 的 开发 者 ， 想 深入 了 解 Ceph 原 理 的 高 级 运 维 人 员 ， 想 基于 Ceph 做 优化 和 定制 的 开发 人 员 ， 以 及 想 对 社区 提交 代码 的 研究 人 员 。 官 网 上 有 比较 详细 的 介绍 Ceph 安 装 部 署 以 及 操作 相关 的 


知识 ， 希 望 阅读 本 书 的 人 能 够 自己 动手 实践 ， 对 Ceph 进 一 步 了 解 。 本 书 基 于 目前 最 新 的 Ceph 10.2.1 版 本 进行 分 析 。 
本 书 着 重 介绍 Ceph 的 整体 框架 和 各 个 实现 模块 的 实现 原理 ， 对 核心 源 代码 进行 分 析 ， 包 括 一 些 关 键 的 实现 细节 。 存 储 系 统 的 实现 都 是 围绕 数据 以 及 对 数据 的 操作 来 展开 ， 只 要 理解 核心 的 数据 结构 ， 以 
介绍 框架 和 原理 ， 其 次 介绍 相关 的 数据 结构 ， 最 后 基于 数据 结构 ， 介 绍 相 关 的 操作 实现 流程 。 


介绍 


及 数据 结构 的 相关 操作 就 可 以 大 致 了 解 核心 的 实现 和 功能 。 本 书 的 写作 思路 是 先 
最 后 感谢 一 起 工作 过 的 同事 们 ， 同 他 们 在 Ceph 技 术 上 进行 交流 沟通 并 加 以 验证 实践 ， 使 我 受益 菲 浅 。 感 谢 机 械 工业 出 版 社 的 编辑 吴 怡 对 本 书 出 版 所 做 的 努力 ， 以 及 不 断 提出 的 宝贵 意见 。 感 谢 我 的 妻子 


孙 盛 南 女 士 在 我 写作 期 间 默默 的 付出 ， 对 本 书 的 写作 提供 了 坚强 的 后 盾 。 


由 于 Ceph 源 代码 比较 多 ， 也 比较 复杂 ， 写 作 的 时 间 比 较 紧 ， 加 上 个 人 的 水 平 有 限 ， 错 误 和 疏漏 在 所 难免 ， 妨 请 读者 批评 指正 。 有 任何 的 意见 和 建议 都 可 发 送 到 我 的 邮箱 changtao381@163.com， 欢 迎 读者 
2016 年 6 月 于 北京 


与 我 交流 Ceph 相 关 的 任何 问题 。 


第 1 章 ”Ceph 整 体 架 构 


其 次 介绍 Ceph 的 三 种 对 外 接口 : 块 存储 、 对 象 存储 、 文 件 存储 。 还 介绍 Ceph 的 存储 基石 RADOS 系 统 的 一 些 基本 概 


本 章 从 比较 高 的 层次 对 Ceph 的 发 展 历 史 、Ceph 的 设计 目标 、 整 体 架 构 进行 简要 介绍 
最 后 介绍 了 对 象 的 寻 址 过 程 和 数据 读 写 的 原理 ， 以 及 RADOS 实 现 的 数据 服务 等 。 


念 、 各 个 模块 组 成 和 功能 。 


1.1 Ceph 的 发 展 历 程 


Ceph 项 目 起 源 于 其 创始 人 Sage Weil 在 加 州 大 学 Santa Cruz 分 校 攻读 博士 期 间 的 研究 课题 。 项 目的 起 始 时 间 为 2004 年 ， 在 2006 年 基于 开源 协议 开源 了 Ceph 的 源 代码 。Sage Weil 也 相应 成 立 了 
Inktank 公 司 专注 于 Ceph 的 研发 。 在 2014 年 5 月 ， 该 公司 被 Red Hat 收 购 。Ceph 项 目的 发 展 历程 如 图 1-1 所 示 。 


2012 年 ，Ceph 发 布 了 第 一 个 稳定 版 本 。2014 年 10 月 ，Ceph 开 发 团队 发 布 了 Ceph 的 第 七 个 稳定 版 本 Giant。 到 目前 为 止 ， 社 区 平均 每 三 个 月 发 布 一 个 稳定 版 本 ， 目 前 的 最 新 版 本 为 10.2.1。 


OpenStack Ceph 产品 RHELOSP& 
开源 集成 准备 Xen 集成 RHEYV 支持 
2006 2011 SEPT 2012 2013 FEB 2014 


2004 2010 MAY 2012 2012 OCT 2013 
产品 始 于 Linux 内 核 由 Inktank CloudStack Inktank Ceph 
UCSE 主线 版 发 布 集成 企业 版 发 布 


图 1-1 Ceph 的 发 展 历程 


1.2 ”Ceph 的 设计 目标 


Ceph 的 设计 目标 是 采用 商用 硬件 (Commodity Hardware) 来 构建 大 规模 的 、 具 有 高 可 用 性 、 高 可 扩展 性 、 高 性 能 的 分 布 式 存储 系统 。 


商用 硬件 一 般 指标 准 的 x86 服 务 器 ， 相 对 于 专用 硬件 ， 性 能 和 可 靠 性 较 差 ， 但 由 于 价格 相对 低廉 ， 可 以 通过 集群 优势 来 发 挥 高 性 能 ， 通 过 软件 的 设计 解决 高 可 用 性 和 可 扩展 性 。 标 准 化 的 硬件 可 以 极 大 地 
方便 管理 ， 且 集群 的 灵活 性 可 以 应 对 多 种 应 用 场景 。 


系统 的 高 可 用 性 指 的 是 系统 某 个 部 件 失效 后 ， 系 统 依然 可 以 提供 正常 服务 的 能 力 。 一 般 用 设备 部 件 和 数据 的 宛 余 来 提高 可 用 性 。Ceph 通 过 数据 多 副本 、 纠 删 码 来 提供 数据 的 宛 余 。 


高 可 扩展 性 是 指 系统 可 以 灵活 地 应 对 集群 的 伸缩 。 一 般 指 两 个 方面 ， 一 方面 指 集群 的 容量 可 以 伸缩 ， 集 群 可 以 任意 地 添加 和 删除 存储 节点 和 存储 设备 ; 另 一 方面 指 系统 的 性 能 随 集群 的 增加 而 线性 增 
加 。 
大 规模 集群 环境 下 ， 要 求 Ceph 存 储 系统 的 规模 可 以 扩展 到 成 王 上 万 个 节点 。 当 集群 规模 达到 一 定 程度 时 ， 系 统 在 数据 恢复 、 数 据 迁 移 、 节 点 监测 等 方面 会 产生 一 系列 富有 挑战 性 的 问题 。 


1.3 “Ceph 基 本 架构 图 


Ceph 的 整体 架构 由 三 个 层次 组 成 : 最 底层 也 是 最 核心 的 部 分 是 RADOS 对 象 存储 系统 。 第 二 层 是 librados 库 层 ; 最 上 层 对 应 着 Ceph 不 同形 式 的 存储 接口 实现 ， 架 构 如 图 1-2 所 示 。 


应 用 对 象 存储 接口 块 存储 接口 ( 物 文件 系统 接口 
(直接 访问 RADOS) (S3/Swift) 理 主机 /虚拟 机 )|| (libcephfs 库 /posix 接口 ) 


radosgw 元 数据 服务 
器 (MDS ) 


librados 
(访问 RADOS 对 象 存 系统 的 库 ， 支 持 C/C++/Java/Python/Ruby/PHP) 


RADOS 对 象 存储 系统 
(可 靠 的 、 自 组 织 的 、 可 自动 修复 、 自 我 管理 的 分 布 式 对 象 存 储 系 统 ) 


1-2 Ceph 基 本 架构 


Ceph 的 整体 架构 大 致 如 下 : 


' 最 底层 基于 RADOS (reliable，autonomous，disttibuted object store) ， 它 是 一 个 可 靠 的 、 自 组 织 的 、 可 自动 修复 、 自 我 管理 的 分 布 式 对 象 存 储 系 统 。 其 内 部 包括 ceph-osd 后 台 服务 进程 和 ceph-mon 监 控 进 


“中间 层 librados 库 用 于 本 地 或 者 远程 通过 网 络 访问 RADOS 对 象 存储 系统 。 它 支持 多 种 语言 ， 目 前 支持 C/C++ 语言 、Java、Python、Ruby 和 PHP 语 言 的 接口 。 
“ 最 上 层面 向 应 用 提供 3 种 不 同 的 存储 接口 : 

“ 块 存储 接口 ， 通 过 librbd 库 提供 了 块 存储 访问 接口 。 它 可 以 为 虚拟 机 提供 虚拟 磁盘 ， 或 者 通过 内 核 映射 为 物理 主机 提供 磁盘 空间 。 

:对象 存储 接口 ， 目 前 提供 了 两 种 类 型 的 API， 一 种 是 和 AWS 的 S3 接 口 兼容 的 API， 另 一 种 是 和 OpenStack 的 Swift 对 象 接 口 兼 容 的 API。 


“ 文件 系统 接口 ， 目 前 提供 两 种 接口 ， 一 种 是 标准 的 posix 接 口 ， 另 一 种 通过 libcephfs 库 提供 文件 系统 访问 接口 。 文 件 系统 的 元 数据 服务 器 MDS 用 于 提供 元 数据 访问 。 数 据 直接 通过 librados 库 访问 。 


1.4 ”Ceph 客 户 端 接口 


Ceph 的 设计 初 表 是 成 为 一 个 分 布 式 文件 系统 ， 但 随 着 云 计算 的 大 量 应 用 ， 最 终 变 成 支持 三 种 形式 的 存储 : 块 存储 、 对 象 存储 、 文 件 系统 ， 下 面 介 绍 它们 之 间 的 区 别 。 


1.5 RADOS 


RADOS 是 Ceph 存 储 系统 的 基石 ， 是 一 个 可 扩展 的 、 稳 定 的 、 自 我 管理 的 、 自 我 修复 的 对 象 存储 系统 ， 是 Ceph 存 储 系统 的 核心 。 它 完成 了 一 个 存储 系统 的 核心 功能 ,包括 : Monitor 模 块 为 整个 存储 集 
群 提供 全 局 的 配置 和 系统 信息 ; 通过 CRUSH 算 法 实现 对 象 的 寻 址 过 程 ; 完成 对 象 的 读 写 以 及 其 他 数据 功能 ; 提供 了 数据 均衡 功能 ; 通过 Peering 过 程 完 成 一 个 PG 内 存 达 成 数据 一 致 性 的 过 程 ; 提供 数据 自动 
恢复 的 功能 ;提供 克隆 和 快照 功能 ;实现 了 对 象 分 层 存储 的 功能 ;实现 了 数据 一 致 性 检查 工具 Scrub。 下 面 分 别 对 上 述 基本 功能 做 简要 的 介绍 。 


1.6 ”本章 小 结 


本 章 介绍 了 Ceph 的 系统 架构 ， 通 过 本 章 ， 可 以 对 Ceph 的 基本 架构 和 各 个 模块 的 组 件 有 了 整体 的 了 解 ， 并 对 一 些 基本 概念 及 读 写 的 原理 、 各 个 数据 功能 模块 有 了 大 致 了 解 。 


本 章 介 绍 的 Ceph 客 户 端的 基本 概念 ， 在 第 5 章 会 详细 介绍 到 。 本 章 介 绍 的 对 象 寻 址 的 CRUSH 算 法 将 会 在 第 4 章 详细 介绍 到 。 在 本 章 介 绍 的 本 地 对 象 存储 将 会 在 第 7 章 详细 介绍 到 。 本 章 介 绍 的 数据 读 写 流 
程 ， 将 会 在 第 6 章 详细 介绍 。 本 章 介 绍 的 纠 删 码 将 在 第 8 章 中 详细 介绍 。 本 章 介绍 的 快照 和 克隆 将 在 第 9 章 详细 介绍 。 本 章 介 绍 的 Ceph Peering 的 过 程 将 会 在 第 10 章 详细 介绍 。 本 章 介绍 的 数据 恢复 和 回填 将 会 
在 第 11 章 介绍 到 。 本 章 介绍 的 Ceph Srcub 机 制 将 会 在 第 12 章 详细 介绍 。 本 章 介绍 的 Cache Tier 将 在 第 13 章 详细 介绍 。 


第 2 章 ”Ceph 通 用 模块 


本 章 介 绍 Ceph 源 代码 通用 库 中 的 一 些 比 较 关 键 而 又 比较 复杂 的 数据 结构 。Object 和 Buffer 相 关 的 数据 结构 是 普遍 使 用 的 。 线 程 池 ThreadPool 可 以 提高 消息 处 理 的 并 发 能 力 。Finisher 提 供 了 异步 操作 时 来 执 
行 回调 函数 。Throttle 在 系统 的 各 个 模块 各 个 环节 都 可 以 看 到 ， 它 用 来 限制 系统 的 请 求 ， 避 免 肯 时 大 量 突 发 请 求 对 系统 的 冲击 。SafteTimer 提 供 了 定时 器 ， 为 超时 和 定时 任务 等 提供 了 相应 的 机 制 。 理 解 这 些 数 
据 结构 ， 能 够 更 好 理解 后 面 章节 的 相关 内 容 。 


2.1 Object 


对 象 Object 是 默认 为 4MB 大 小 的 数据 块 。 一 个 对 象 就 对 应 本 地 文件 系统 中 的 一 个 文件 。 在 代码 实现 中 ， 有 object、sobject、hobject、ghobject 等 不 同 的 类 。 


结构 object_t 对 应 本 地 文件 系统 的 一 个 文件 ，name 就 是 对 象 名 : 


struct object t { 

string name; 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15932/0EBPS/Text/. .http://www.hzcourse.com/resource/readBook?path=/openresources/teach 
} 


sobject t 在 object t 之 上 增加 了 snapshot 信 息 ， 用 于 标识 是 否 是 快照 对 象 。 数 据 成 员 snap 为 快照 对 象 的 对 应 的 快照 序号 。 如 果 一 个 对 象 不 是 快照 对 象 (也 就 是 head 对 象 ) ， 那 么 snap 字 段 就 被 设置 为 
CEPH_NOSNAP 值 。 


struct sobject 七 { 
object t oid7 
snapid t snap; 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15932/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ 


} 


hobject t 是 名 字 应 该 是 hash object 的 缩写 。 


struct hobject t { 
object t oid7 
snapid t snap; 
Private: 
uint32 t hash; 
bool max; 
uint32 t nibblewise key cache; 
uint32 t hash reverse bits; 
public: 
int64 t pool; 
string nspace; 


Private: 

string key; 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15932/0EBPS/Text/. .http://www.hzcourse.com/resource/readBook?path=/openresources/teach 
} 


其 在 sobject t 的 基础 上 增加 了 一 些 字段 : 

“int64_t pool: 所 在 的 pool 的 id。 

string nspace: nspace 一 般 为 空 ， 它 用 于 标识 特殊 的 对 象 。 
string key: 对 象 的 特殊 标记 。 


' string hash: hash 和 key 不 能 同时 设置 ，hash 值 一 般 设置 为 就 是 pg 的 id 值 。 


ghobject t 在 对 象 hobject t 的 基础 上 ， 添 加 了 generation 字 段 和 shard_id 字 段 ， 这 个 用 于 ErasureCode 模 式 下 的 PG: 


“ shard_id 用 于 标识 对 象 所 在 的 osd 在 EC 类 型 的 PG 中 的 序号 ， 对 应 EC 来 说 ， 每 个 osd 在 PG 中 的 序号 在 数据 恢复 时 非常 关键 。 如 果 是 Replicate 类 型 的 PG， 那 么 字段 就 设置 为 NO_SHARD (-1) ， 该 字段 对 于 
replicate 是 没 用 。 


“ generation 用 于 记录 对 象 的 版 本 号 。 当 PG 为 EC 时 ， 写 操作 需要 区 分 写 前 后 两 个 版 本 的 object， 写 操作 保存 对 象 的 上 一 个 版 本 (generation) 的 对 象 ， 当 EC 写 失败 时 ， 可 以 rollback 到 上 一 个 版 本 。 


struct ghobject t { 

hobject t hobj; 

gen t generation; 

shard id t shard id; 

bool max; 
public: 

static const gen t NO GEN = UINT64 MAX; 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15932/OEBPS/Text/. .http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ 
} 


2.2 Buffer 


Buffer 就 是 一 个 命名 空间 ， 在 这 个 命名 空间 下 定义 了 Buffer 相 关 的 数据 结构 ， 这 些 数 据 结构 在 Ceph 的 源 代码 中 广泛 使 介绍 的 buffer: : raw 类 是 基础 类 ， 其 子 类 完成 了 Buffer 数 据 空间 的 分 


配 ，buffer: : ptr 类 实现 了 Buffer 内 部 的 一 段 数据 ，buffer: : list 封 装 了 多 个 数据 段 。 


才 


2.3 ”线程 ; 


让 


线程 池 (ThreadPool) 在 分 布 式 存储 系统 的 实现 中 是 必 不 可 少 的 ， 在 Ceph 的 代码 中 广泛 用 型 


。 Ceph 中 线程 池 的 实现 也 比较 复杂 ， 结 构 如 下 : 


class ThreadPool : public md config obs t { 
CephContext *cct; 


string name; // 线 程 池 的 名 字 

string lockname; // 锁 的 名 字 

Mutex _lock; // 线 程 互 斥 的 锁 ， 也 是 工作 队列 访问 互 斥 的 锁 
Cond _cond; // 锁 对 应 的 条 件 变量 

bool _stop; / /线程 池 是 否 停 止 的 标志 

int pause; // 暂 时 中 止 线程 池 的 标志 

int draining; 

Cond wait cond; 

int ioprio class, ioprio priority; 

Vector<WorkQueue *> work queues; // 工 作 队 列 

int last work queue; // 最 后 访问 的 工作 队列 
set<WorkThread*> threads; // 线 程 池 中 的 工作 线程 
list<WorkThread*> old threads; // 等 待 进 joined 操 作 的 线程 


int processing; 


类 ThreadPool 里 包 函 一 些 比较 重要 的 数据 成 员 : 


' 工作 线程 集合 _threads。 
' 等 待 Join 操 作 的 旧 线 程 集合 _old_threads。 


: 工作 队列 集合 ， 保 存 所 有 要 处 理 的 任务 。 一 般 情况 下 ， 一 个 工作 队列 对 应 一 个 类 型 的 处 理 任务 ， 一 个 线程 池 对 应 一 个 工作 队列 ， 专 门 用 于 处 理 该 类 型 的 任务 。 如 果 是 后 台 任 务 ， 又 不 紧急 ， 就 可 以 将 
多 个 工作 队列 放置 到 一 个 线程 池 里 ， 该 线程 池 可 以 处 理 不 同类 型 的 任务 。 


线程 池 的 实现 主要 包括 : 线程 池 的 启动 过 程 ， 线 程 池 对 应 的 工作 队列 的 管理 ， 线 程 池 对 应 的 执行 函数 如 何 执行 任务 。 下 面 分 别 介绍 这 些 实现 ， 然 后 介绍 一 些 Ceph 线 程 池 实 现 的 超时 检查 功能 ， 最 后 介绍 
ShardedThreadpool 的 实现 原理 。 


2.4 Finisher 


类 Finisher 用 来 完成 回调 函数 Context 的 执行 ， 其 内 部 有 一 个 FinisherThread 线 程 来 用 于 执行 Context 回 调 函 数 : 


Class Finisher { 


Vector<Context*> finisher queue; 

// 需要 执行 的 Contex， 成 功 返 回 值 为 0 
list<pair<Context*,int> > finisher queue rval; 、 

// 需要 执行 的 Context, 返回 值 为 int 类 型 的 有 效 值 


2.5 Throttle 


类 Throttle 用 来 限制 消费 的 资源 数量 (也 常 称 为 模 位 “slot”) ， 当 请 求 的 slot 数 量 达到 max 值 时 ， 请 求 就 会 被 阻塞 ， 直 到 有 新 的 槽 位 释放 出 来 ， 代 码 如 下 : 


class Throttle { 
CephContext *cct; 
const std::string name; 
PerfCounters *logger; 
ceph::atomic t count, max; 
// count: 当 前 占用 的 Slot 的 数量 
// max:sloct 数 量 的 最 大 值 
Mutex lock; // 等 待 的 锁 
list<Cond*> cond;  // 等 待 的 条 件 变 量 


函数 get 用 于 获取 数量 为 c 个 slot， 参 数 c 默 认为 1， 参 数 m 默 认为 0， 如 果 m 不 为 默认 的 0 值 ， 就 用 m 值 重新 设置 slot 的 max 值 。 如 果 成 功 获取 数量 为 c 个 slot， 就 返回 true， 否 则 就 阻塞 等 待 。 例 如 : 


bool Throttle::get (int64 t c, int64 t m) 


函数 get_or fail 当 获取 不 到 数量 为 c 个 slot 时 ， 就 直接 返回 false， 不 阻塞 等 待 : 


bool Throttle::get or fail(int64 t c) 


函数 put 用 于 释放 数量 为 c 个 slot 资 源 : 


int64 t Throttle::put (int64 t c) 


2.6 SafeTimer 


类 SafeTimer 实 现 了 定时 器 的 功能 ， 代 码 如 下 : 


class SafeTimer 
{ 
CephContext *cct; 
Mutex& lock; 
Cond cond; 
bool safe callbacks; // 是 否 是 safe callbacks 
SafeTimerThread *thread; // 定 时 器 执行 线程 
std: :multimap<utime t, Context*> schedule; 
// 目 标 时 间 和 定时 任务 执行 函数 Context 
std: :map<Context*, std: :multimap<utime t, Context*>::iterator> events; 
// 定 时 任务 <--> 定 时 任务 在 shedule 中 的 位 置 映射 
bool stopping; // 是 否 停止 


添加 定时 任务 的 命令 如 下 : 


void SafeTimer::add event at(utime t when, Context *callback) 


取消 定时 任务 的 命令 如 下 : 


bool cancel event (Context *callback); 


定时 任务 的 执行 如 下 : 


void SafeTimer::timer thread() 


本 函数 一 次 检查 scheduler 中 的 任务 是 否 到 期 ， 其 循环 检查 任务 是 否 到 期 执行 。 任 务 在 schedule 中 是 按照 时 间 升 序 排列 的 。 首 先 检查 ， 如 果 第 一 任务 没有 到 时 间 ， 后 面 的 任务 就 不 用 检查 了 ， 直 接 终止 
循环 。 如 果 第 一 任务 到 了 定时 时 间 ， 就 调用 callback 函 数 执行 ， 如 果 是 safe_callbacks， 就 必须 在 获取 lock 的 情况 下 执行 Callback 任 务 。 


2.7 本章 小 结 


本 章 介 绍 了 stc/common 目 录 下 的 一 些 公共 库 中 比较 常见 的 类 的 实现 。BufferList 在 数据 读 写 、 序 列 化 中 使 用 比较 多 ， 它 的 各 种 不 同 成 员 函 数 的 使 用 方法 需要 读者 自己 进一步 了 解 。 对 于 
ShardedThreadPool， 本 章 只 介绍 了 实现 的 原理 ， 具 体 实现 在 不 同 的 场景 会 有 不 同 ， 需 要 读者 面 对 具 体 的 代码 自己 去 分 析 。 


第 3 章 ”Ceph 网 络 通信 


本 章 介绍 Ceph 网 络 通信 模块 ， 这 是 客户 端 和 服务 器 通信 的 底层 模块 ， 用 来 在 客户 端 和 服务 器 之 间接 收 和 发 送 请 求 。 其 实现 功能 比较 清晰 ， 是 一 个 相对 较 独立 的 模块 ， 理 解 起 来 比较 容易 ， 所 以 首先 介绍 


3.1 ”Ceph 网 络 通信 框架 


一 个 分 布 式 存储 系统 需要 一 个 稳定 的 底层 网 络 通 信 模 块 ， 用 于 各 节点 之 间 的 互联 互通 。 对 于 一 个 网 络 通 信 系统 ， 要 求 如 下 : 


“ 高 性 能 。 性 能 评价 的 两 个 指标 : 带宽 和 延迟 。 


“ 稳定 可 靠 。 数据 不 丢 包 ， 在 网 络 中 断 时 ， 实 现 重 连 等 异常 处 理 。 


网 络 通信 模块 的 实现 在 源 代 码 src/msg 的 目录 下 ， 其 首先 定义 了 一 个 网 络 通信 的 框架 ， 三 个 子 目录 里 分 别 对 应 : Simple、Async、XIO 三 种 不 同 的 实现 方式 。 


Simple 是 比较 简单 ， 目 前 比较 稳定 的 实现 ， 系 统 默认 的 用 于 生产 环境 的 方式 。 它 最 大 的 特点 是 : 每 一 个 网 络 链接 ， 都 会 创建 两 个 的 线程 ， 一 个 专门 用 于 接收 ， 一 个 专门 用 于 发 送 。 这 种 模式 实现 比较 简 
单 ， 但 是 对 于 大 规模 的 集群 部 署 ， 大 量 的 链接 会 产生 大 量 的 线程 ， 会 消耗 CPU 资源 ， 影 响 性 能 。 


Async 模 式 使 用 了 基于 事件 的 /O 多 路 复 用 模式 。 这 是 目前 网 络 通信 中 广泛 采用 的 方式 ， 但 是 在 Ceph 中 ， 官 方 宣称 这 种 方式 还 处 于 试验 阶段 ， 不 够 稳定 ， 还 不 能 用 于 生产 环境 。 


XIO 方 式 使 用 了 开源 的 网 络 通信 和 库 accelio 来 实现 。 这 种 方式 需要 依赖 第 三 方 的 库 accelio 稳 定性 ， 需 要 对 accelio 的 使 用 方式 以 及 代码 实现 都 比较 熟悉 。 目 前 也 处 于 试验 阶段 。 特 别 注意 的 是 ， 前 两 种 方式 
只 支持 TCP/IP 协 议 ，XIO 可 以 支持 Infiniband 网 络 。 


在 msg 目 录 下 定义 了 网 络 通信 的 抽象 框架 ， 它 完成 了 通信 接口 和 具体 实现 的 分 离 。 在 其 下 分 别 有 msg/simple 子 目录 、msg/Async 子 目录 、msg/xio 子 目录 ， 分 别 对 应 三 种 不 同 的 实现 。 


3.2 _ Simple 实现 


Simple 在 Ceph 里 实现 比较 早 ， 目 前 也 比较 稳定 ， 是 在 生产 环境 中 使 用 的 网 络 通信 模块 。 如 其 名 字 所 示 ， 实 现 相 对 比较 简单 。 下 面具 体 分 析 一 下 ，Simple 如 何 实现 Ceph 网 络 通信 框架 的 各 个 模块 。 


3.3 本章 小 结 


本 章 介 绍 了 Ceph 的 网 络 通信 模块 的 框架 ， 及 目前 生产 环境 中 使 用 的 Simple 实 现 。 它 对 每 个 链接 都 会 有 一 个 发 送 线程 和 接收 线程 用 来 处 理发 送 和 接收 。 实 现 的 难点 还 在 于 网 络 链接 出 现 错误 时 的 各 种 错误 
处 理 。 


第 4 章 “CRUSH 数 据 分 布 算法 


本 章 介绍 Ceph 的 数据 分 布 算法 CRUSH， 它 是 一 个 相对 比较 独立 的 模块 ， 和 其 他 模块 的 耦合 性 比较 少 ， 功 能 比较 清晰 ， 比 较 容 量 理解 。 在 客户 端 和 服务 器 都 有 CRUSH 的 计算 ， 了 解 它 可 以 更 好 地 理解 后 面 
的 章节 。 


CRUSH 算 法 解决 了 PG 的 副本 如 何 分 布 在 集群 的 OSD 上 的 问题 。 本 章 首先 介绍 CRUSH 算 法 的 原理 ， 并 给 出 相应 的 示 列 ， 然 后 进一步 分 析 其 实现 的 一 些 核心 代码 。 


4.1 数据 分 布 算法 的 挑战 


存储 系统 的 数据 分 布 算法 要 解决 数据 如 何 分 布 到 集群 中 的 各 个 节点 和 磁盘 上 ， 其 面临 如 下 的 挑战 : 


: 数据 分 布 和 负载 的 均衡 。 首 先是 数据 分 布 均衡 ， 使 数据 能 均匀 地 分 别 在 各 个 节点 和 磁盘 上 。 其 次 是 负载 均衡 ， 使 数据 访问 〈 读 写 等 操作 ) 的 负载 在 各 个 节点 和 磁盘 上 的 负载 均衡 。 
“ 灵活 应 对 集群 伸缩 。 系 统 可 以 方便 地 增加 或 者 删除 存储 设备 (包括 节点 和 设备 失效 的 处 理 ) 。 当 增加 或 者 删除 存储 设备 后 ， 能 自动 实现 数据 的 均衡 ， 并 且 迁 移 的 数据 尽 可 能 地 少 。 


: 支持 大 规模 集群 。 为 了 支持 大 规模 的 存储 集群 ， 就 要 求 数据 分 布 算法 维护 的 元 数据 相对 较 小 ， 并 且 计 算 量 不 能 太 大 。 随 着 集群 规模 的 增加 ， 数 据 分 布 算法 的 开销 比较 小 。 


在 分 布 式 存储 系统 中 ， 数 据 分 布 算法 对 于 分 布 式 存储 系统 至 关 重 要 。 目 前 有 两 种 基本 实现 方法 ， 一 种 是 基于 集中 式 的 元 数据 查询 的 方式 ， 如 HDFS 的 实现 : 文件 的 分 布 信息 (layout 信 息 ) 是 通过 访问 集 
中 式 元 数据 服务 器 获得 ; 另 一 种 是 基于 分 布 式 算法 以 计算 获得 。 例 如 一 致 性 哈 希 算法 (DHT) 等 。Ceph 的 数据 分 布 算法 CRUSH 就 属于 后 者 。 


4.2 CRUSH 算 法 的 原理 


CRUSH 算 法 的 全 称 为 : Controlled、Scalable、Decentralized Placement of Replicated Data， 可 控 的 、 可 扩展 的 、 分 布 式 的 副本 数据 放置 算法 。 


由 第 1 章 中 介绍 过 的 RADOS 对 象 寻 址 过 程 可 知 ，CRUSH 算 法 解决 PG 如 何 映射 到 OSD 列 表 中 。 其 过 程 可 以 看 成 函数 : 


CRHUSH (X) 一 (OSDi, OSDj, OSDKk) 


“又 为 要 计算 的 PG 的 pg_id。 


* Hierachica 


" Placement Rules 为 选择 策略 。 


输出 一 组 可 用 的 OSD 列 表 。 


Cluster Map 为 Ceph 集 群 的 拓扑 结构 。 


下 面 将 分 别 详细 介绍 Hierarchical Cluster Map 的 定义 和 组 织 方式 。Placement rules 定 义 了 副本 选择 的 规则 。 最 后 介绍 Bucket 随 机 选择 算法 的 实现 。 


4.3 ”代码 实现 分 析 


在 介绍 了 CRUSH 算 法 的 原理 之 后 ， 下 面 


4.4 对 CRUSH 算 法 的 评价 


就 分 析 CRUSH 算 法 实现 的 关键 数 


展 结构 ， 并 对 算法 具体 实现 函数 进行 分 析 。 


通过 以 上 分 析 ， 可 以 了 解 到 CRUSH 算 法 实质 是 一 种 可 分 层 确定 性 伪 随机 选择 算法 ， 它 是 Ceph 分 布 式 文件 系统 的 一 个 亮点 和 创新 。 


优点 如 下 : 


“ 输入 元 数据 (cluster map、placement rule) 较 少 ， 可 以 应 对 大 规模 集群 。 


“ 可 以 应 对 集群 的 扩容 和 缩 容 。 


“ 采用 以 概率 为 基础 的 统计 上 的 均衡 ， 在 大 规模 集群 中 可 以 实现 数据 均衡 。 


目前 存在 的 缺点 如 下 : 


“ 在 小 规模 集群 中 ， 会 有 一 定 的 数据 不 均衡 现象 。 


“ 增加 新 设备 时 ， 叶 致 旧 设 备 之 间 也 有 数据 的 迁移 。 


4.5 本章 小 结 


本 章 介 绍 了 RADOS 的 数据 分 布 算法 CRUSH 的 原理 。Hierarchical Cluster Mab 实 质 定义 了 存储 集群 的 静态 拓扑 结构 。Placement Rules 开 放 了 数据 副本 的 选择 规则 ， 可 以 由 用 户 自己 定义 和 编辑 。Bucket 算 法 定 
义 了 从 bucket 选 择 一 个 item 的 算法 。 通 过 本 章 可 以 了 解 CRUSH 算 法 的 具体 实现 ， 它 实质 是 一 个 可 分 层 的 伪 随 机 分 布 选择 算法 ， 是 Ceph 的 一 个 创新 ， 但 它 并 不 完美 ， 需 要 许多 改进 。 


第 5 章 Ceph 客 户 端 


本 章 介绍 Ceph 的 客户 端 实现 。 客 户 端 是 系统 对 外 提供 的 功能 接口 ， 上 层 应 用 通过 它 来 访问 Ceph 存 储 系统 。 本 章 首 先 介绍 Librados 和 Osdc 两 个 模块 ， 通 过 它们 可 直接 访问 RADOS 对 象 存储 系统 。 其 次 介绍 
Cls 扩 展 模块 使 用 它们 可 方便 地 扩展 现 有 的 接口 。 最 后 介绍 Librbd 模 块 。 由 于 Librados 和 Librbd 的 多 数 实现 流程 都 比较 类 似 ， 本 章 在 介绍 相关 的 数据 结构 后 ， 只 选取 一 些 典型 的 操作 流程 介绍 。 


5 ， 量 


brados 


Librados 是 RADOS 对 象 存储 系统 访问 的 接口 库 ， 它 提供 了 pool 的 创建 、 删 除 、 对 象 的 创建 、 删 除 、 读 写 等 基本 操作 接口 。 架 构 如 图 5-1 所 示 。 


在 最 上 


层 是 类 RadosClient， 它 是 Librados 的 核心 管理 类 ， 处 理 整个 RADOS 系 统 层面 以 及 poo| 层 面 的 管理 。 类 loctxImpl| 实 现 单个 pool 
块 发 送 请 求 的 逻辑 ， 其 核心 类 Objecter 完 成 对 象 的 地 址 计算 、 消 息 的 发 送 等 工作 。 


层 的 对 象 读 写 等 操作 。OSDC 模 块 实现 了 请 求 的 封装 和 通过 网 络 模 
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5-1 Librados 架 构图 


5.2 OSDC 


OSDC 是 客户 端 比 较 底层 的 模块 ， 其 核心 在 于 封装 操作 数据 ， 计 算 对 象 的 地 址 ， 发 送 请 求 和 处 理 超时 。 


5.3 客户 写 操作 分 析 


以 下 代码 是 通过 Librados 库 的 接口 写 入 数据 到 对 象 中 的 典型 例 程 ， 对 象 的 其 他 操作 过 程 都 类 似 : 


rados 七 Cluster7 

rados ioctx t ioctx; 

rados create(&cluster, NULL); 

rados_ conf read file (cluster, NULL); 

rados connect (cluster); 

rados ioctx create (cluster, pool name.c str(), &ioctx); 
rados write(ioctx, "foo", buf, sizeof (buf), 0) 


上 述 代 码 是 C 语 言 接口 完成 的 ， 其 流程 如 下 : 


1) 首先 调用 rados_create 函 数 创建 一 个 RadosClient 对 象 ， 输 出 为 类 型 rados_t， 它 是 一 个 void 类 型 的 指针 ， 通 过 librados: : RadosClient 对 象 的 强制 转换 产生 。 第 二 个 参数 id 为 一 个 标识 符 ， 一 般 传 
入 为 NULL。 


2) 调用 函数 rados_conf_read 来 读 取 配置 文件 。 第 二 个 参数 为 配置 文件 的 路 径 ， 如 果 是 NULL， 就 搜索 默认 的 配置 文件 。 


3) 调用 rados_connect 函 数 ， 它 调用 了 RadosClient 的 connect 函 数 ， 做 相关 的 初始 化 工作 。 


4) 调用 函数 rados ioctx_create， 它 调用 RadosClient 的 create_ioctx 函 数 ， 创 建 pool 相 关 的 loCtxImpl 类 ， 其 输出 为 类 型 rados ioctx_t， 它 也 是 void 类 型 的 指针 ， 由 loCtxlmpl 对 象 转换 而 来 。 


5) 调用 函数 rados write 函数 ， 向 该 pool 的 名 为 “foo” 的 对 象 写 入 数据 。 其 调用 loCtxImpl 类 的 wrie 操 作 。 


5.4 Cls 


Cls 是 Ceph 的 一 个 模块 扩展 ， 它 允许 用 户 自 定义 对 象 的 操作 接口 和 实现 方法 ， 为 用 户 提 供 了 一 种 比较 方便 的 接口 扩展 方式 。 目 前 rbd 和 lock 等 模块 都 使 用 了 这 种 机 制 。 


5.5 Librbd 


Librbd 模 块 实现 了 RBD (rados block device) 接口 ， 其 基于 Librados 实 现 了 对 RBD 的 基本 操作 。Librbd 的 架构 如 图 5-3 所 示 。 


Librbd 


cls rbd 


Librados 


图 5-3 Librbd 的 架构 


在 最 上 层 是 Librbd 层 ， 模 块 cls_rbd 是 一 个 Cls 扩 展 模 块 ， 实 现 了 RBD 的 元 数据 相关 的 操作 。RBD 的 数据 访问 直接 通过 该 Librados 来 访问 。 在 最 底层 是 OSDC 层 完成 数据 的 发 送 。 


5.6 本章 小 结 


本 章 大 致 介绍 了 客户 端的 各 个 模块 的 功能 以 及 核心 典型 操作 的 处 理 流程 。 由 于 Librados 和 Librbd 的 代码 比较 庞大 ， 承 载 了 所 有 功能 的 接口 ， 故 一 些 功能 本 章 没有 介绍 到 或 者 介绍 得 比较 简略 ， 但 是 客户 端 
的 代码 有 很 大 的 类 似 性 ， 通 过 了 解 典型 流程 ， 便 不 难 理解 其 他 代码 。 


第 6 章 ”Ceph 的 数据 读 写 


本 章 介绍 Ceph 的 服务 端 OSD ( 书 中 简称 OSD 模 块 或 者 OSD) 的 实现 。 其 对 应 的 源 代 码 在 src/osd 目 录 下 。QOSD 模 块 是 Ceph 服 务 进程 的 核心 实现 ， 它 实现 了 服务 端的 核心 功能 。 本 章 先 介绍 DOSD 模 块 静 态 类 
图 相关 数据 结构 ， 再 着 重 介绍 服务 端 数据 的 写 入 和 读 取 流 程 。 


6.1 ”OSD 模块 静态 类 图 


OSD 模 块 的 静态 类 图 如 图 6-1 所 示 。 


OSD 模 块 的 核心 类 及 其 之 间 的 静态 类 图 说 明 如 下 : 


“ 类 OSD 和 类 OSDService 是 核心 类 ， 处 理 一 个 osd 节 点 层面 的 工作 。 在 早期 的 版 本 中 ，OSD 和 OSDService 是 一 个 类 。 由 于 OSD 的 类 承载 了 太 多 的 功能 ， 后 面 的 版 本 中 引入 OSDService 类 ， 分 担 一 部 原 OSD 
类 的 功能 。 


“ 类 PG 处 理 PG 相 关 的 状态 维护 以 及 实现 PG 层面 的 基本 功能 。 其 核心 功能 是 用 boost 库 的 statechart 状 态 机 来 实现 的 PG 状态 转换 。 
“ 类 ReplicatedPG 继 承 了 类 PG， 在 其 基础 上 实现 了 PG 内 的 数据 读 写 以 及 数据 恢复 相关 的 操作 。 
“ 类 PGBackend 的 主要 功能 是 把 数据 以 事务 的 形式 同步 到 一 个 PG 其 他 从 OSD 节 点 上 。 
“ PGBackend 的 内 部 类 PGTransaction 就 是 同步 的 事务 接口 ， 其 两 个 类 型 的 实现 分 别 对 应 RPGTransaction 和 ECTransaction 两 个 子 类 。 
: PGBackend 两 个 子 类 ReplicatedBackend 和 ECBackend 分 别 对 应 PG 的 两 种 类 型 的 实现 。 
“ 类 SnapMapper 人 额外 保存 对 象 和 对 象 的 快照 信息 ， 在 对 象 的 属性 里 保存 了 相关 的 快照 信息 。 这 里 保存 的 快照 信息 为 完 余 信息 ， 用 于 数据 效 验 。 
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图 6-1 OSD 模 块 的 静态 类 图 


6.2 ”相关 数据 结构 


下 面 将 介绍 OSD 模 块 相 关 的 一 些 核心 的 数据 结构 。 从 最 高 的 逻辑 层次 为 pool 的 概念 ， 然 后 是 PG 的 概念 。 其 次 是 OSDMap 记 录 了 集群 的 所 有 的 配置 信息 。 数 据 结构 OSDOp 是 一 个 操作 上 下 文 的 封装 。 结 
构 object_info 保存 了 一 个 对 象 的 元 数据 信息 和 访问 信息 。 对 象 ObjectState 是 在 object_info t 基 础 上 添加 了 一 些 内 存 的 状态 信息 。SnapSetContext 和 ObjectContext 分 别 保存 了 快照 和 对 象 的 上 下 文 相关 
的 信息 。Session 保 存 了 一 个 端 到 端的 链接 相关 的 上 下 文 信息 。 


6.3 ” 读 写 操作 的 序列 图 


写 操作 序列 图 如 图 6-2 所 示 。 


写 操作 分 为 三 个 阶段 : 


. 阶段 一 从 函数 ms_fast_dispatch 到 函数 op_wq.queue 函 数 为 止 ， 其 处 理 过 程 都 在 网 络 模块 的 回调 函 中 处 理 ， 主 要 检查 当前 OSD 的 状态 ， 以 及 epoch 是 否 一 致 。 
: 阶段 二 ”这 个 阶段 在 工作 队列 op_wq 中 的 线程 池 里 处 理 ， 在 类 ReplicatedPG 里 ， 其 完成 对 PG 的 状态 、 对 象 的 状态 的 检查 ， 并 把 请 求 封装 成 事务 。 


: 阶段 三 ”本 阶段 也 是 在 工作 队列 op_wdq 中 的 线程 池 里 处 理 ， 主 要 功能 都 在 类 ReplicatedBackend 中 实现 。 核 心 工作 就 是 把 封装 好 的 事务 通过 网 络 分 发 到 从 副本 上 ， 最 后 调用 本 地 FileStore 的 函数 完成 本 地 
对 象 的 数据 写 入 。 
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6-2 OSD 处 理 写 操作 的 序列 图 


6.4” 读 写 流程 代码 分 析 


在 介绍 了 上 述 的 数据 结构 和 基本 的 流程 之 后 ， 下 面 将 从 服务 端 接收 到 消息 开始 ， 分 三 个 阶段 具体 分 析 读 写 的 过 程 。 


6.5 本章 小 结 


本 章 介 绍 了 OSD 读 写 流程 核心 处 理 过 程 。 通 过 本 章 的 介绍 ， 可 以 了 解读 写 流程 的 主干 的 流程 ， 并 对 一 些 核心 概念 和 数据 结构 的 处 理 做 了 介绍 。 当 然 读 写 流程 是 Ceph 文 件 系 统 的 核心 流程 ， 其 实现 细节 比 


较 复 杂 ， 还 需要 读者 对 照 代码 继续 研究 。 目 前 在 这 方面 的 工作 ， 许 多 都 集中 在 提供 Ceph 的 读 写 性 能 。 其 基本 的 方法 更 多 的 就 是 优化 读 写 流 程 的 关键 路 径 ， 通 过 减少 锁 来 提供 并 发 ， 同 时 简化 一 些 关键 流程 。 


第 7 章 ”本 地 对 象 存储 


本 地 对 象 存储 模块 完成 了 数据 如 何 原子 地 写 入 磁盘 ， 这 就 涉及 事务 和 日 志 的 概念 。 对 象 如 何在 本 地 文件 系统 中 组 织 的 代码 实现 在 stc/os 中 。 本 章 将 介绍 在 单个 OSD 上 数据 如 何 写 入 磁盘 中 。 
目前 有 4 种 本 地 对 象 存 储 实现 : 

“ FileStore: 这 是 目前 比较 稳定 ， 生 产 环境 上 使 用 的 主流 对 象 存储 引擎 ， 也 是 本 章 重 点 介绍 的 对 象 存储 引擎 。 

“ BlueStore: 这 是 目前 社区 在 实现 的 一 个 新 版 本 ， 社 区 丢弃 了 本 地 文件 系统 ， 自 己 写 了 一 个 简单 的 ， 专 门 支持 RADOS 用 户 态 的 文件 系统 。 

“ KStore: 这 是 以 本 地 KV 存储 系统 实现 的 对 象 存储 ， 它 基于 RODOS 的 框架 用 来 实现 一 个 分 布 式 的 KV 存储 系统 。 

: Memstore: 它 把 数据 和 元 数据 都 保存 在 内 存 中 ， 用 来 测试 和 验证 使 用 。 


KStore 和 Memtore 两 种 存储 引擎 比较 简单 ， 这 里 就 不 介绍 了 。BlueStore 社 区 还 正在 开发 之 中 ， 这 里 也 暂时 不 介绍 。 本 章 将 详细 介绍 目前 在 生产 环境 中 使 用 的 FileStore 存 储 的 实现 。 


7.1 基本 概念 介绍 


RADOS 本 地 对 象 存储 系统 (也 称 为 对 象 存储 引擎 ) 基于 本 地 文件 系统 实现 ， 目 前 默认 的 文件 系统 为 XFS。 一 个 对 象 包含 数据 和 元 数据 两 种 数据 。 对 应 本 地 文件 系统 里 ， 一 个 对 象 就 是 一 个 固定 大 小 ( 默 
认 4MB) 的 文件 ， 其 元 数据 保存 在 文件 的 扩展 属性 或 者 本 地 独立 的 KV 存 储 系统 中 。 


7.2 ObjectStore 对 象 存储 接口 


下 面 通过 对 象 存储 的 接口 说 明和 代码 示例 ， 可 以 了 解 对 象 存储 的 基本 功能 及 如 何 使 用 这 些 功能 ， 从 而 对 对 象 存储 有 一 个 概要 了 解 。 


7.3 ”日志 的 实现 


在 本 地 对 象 中 ， 日 志 是 实现 操作 一 致 性 的 机 制 。 在 介绍 Filestore 之 前 ， 首 先 需 要 了 解 Journal 的 机 制 。 本 节 首先 介绍 Journal 的 对 外 接口 ， 通 过 对 外 提供 的 功能 接口 ， 可 以 了 解 日 志 的 基本 功能 。 然 后 详 
细 介 绍 FileJournal 的 实现 。 


7.4 ”FileStore 的 实现 


在 介绍 完 本 地 对 象 存储 的 概念 、 对 外 接口 和 日 志 实现 后 ， 本 节 介绍 Filestore 的 实现 。 首 先 看 一 下 FileStore 的 静态 类 图 ， 如 图 7-2 所 示 。 


FileStore 的 静态 类 图 说 明 如 下 : 


“ ObjectStore 是 对 象 存储 的 接口 。FileStore 继 承 了 JouralingObjectSore 类 。 
'“ JournalngObjectStore 实 现 了 和 上 日志 之 间 的 交互 。 


FileStoreBackend 定 义 了 本 地 文件 系统 支持 Filestore 的 一 些 接口 ， 不 同 的 文件 系统 会 增加 自己 支持 特性 实现 了 不 同 的 FileStoreBackend， 例 如 BtrfsFileStoreBackend 和 XfsFilestoreBackend 分 别 对 应 XFS 和 


BTRFS 两 种 文件 系统 的 实现 。 


“Journal 类 定义 了 日 志 的 抽象 接口 ，Filejoural 实 现 了 以 本 地 文件 或 者 本 地 设备 为 存储 的 日 志 系 统 。 
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图 7-2 ”FileStore 的 静态 类 图 


7.5 omap 的 实现 


omap 的 静态 类 图 7-3 所 示 。 类 ObjectMap 定 义 了 omap 的 抽象 接口 。 类 DBObjectMap 实 现 了 以 KeyValueDB 的 本 地 存储 实现 的 ObjectMap 的 接口 。 
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图 7-3 omap 静 态 类 图 
目前 实现 KeyValueDB 的 本 地 存储 分 别 为 : Facebook 开 源 的 levelDB 存 储 ， 对 应 类 LevelDBStore; Google 开 源 的 RocksDB 存 储 ， 对 应 类 RocksDBStore 实 现 ; KineticStore 存 储 对 应 的 类 kineticStore。 
默认 采用 LevelDB 实 现 。 


表 7-1 是 LevelDB 是 一 个 key-value 的 存储 系统 ， 它 是 一 维 的 flat 模 式 的 KV 存 储 。 表 7-2 是 对 象 存储 ， 多 个 不 同 对 象 的 多 个 不 同属 性 的 二 维 存储 模式 。 


二 者 如 何 映射 呢 ? 由 于 对 象 的 名 字 是 全 局 唯一 的 ， 属 性 在 对 象 内 也 是 唯一 的 ， 所 以 在 LevelDB 层 面 就 可 以 用 Object 名 字 和 属性 的 名 字 联 合作 为 在 LevelDB 的 key， 这 是 能 想到 的 比较 直观 的 解决 方式 。 


例如 : object1 的 属性 (key1，value1) 的 保存 在 LevelDB 如 下 : 


(objectl1 name + keyl, valuel) 


前 omap 的 存储 方式 。 
表 7-1 levelDB 的 flat 的 KV 存储 模式 


Key Value 


Keyl Valuel 
Key2 Value2 
KeyN Value N 


表 7-2 对象 的 omap 存 储 模 式 


Object2 Key2 Value2 


7.6 CollectionIndex 


Collection 的 概念 对 应 到 本 地 文件 系统 中 就 是 一 个 目录 ， 用 于 存储 一 个 PG 里 的 所 有 的 对 象 。 


一 个 collection 对 应 本 地 文件 系统 的 一 个 目录 ， 一 个 PG 对 应 于 一 个 Collection， 该 PG 的 所 有 对 象 都 保存 在 这 个 目录 里 ， 定 义 在 类 coll_t 中 : 


class coll t { 
enum type t { 
TYPE META = 0, 
TYPE_LEGACY_TEMP = 1， // 这 个 类 型 不 再 使 用 
TYPE PG = 2, 
TYPE_ PG TEMP = 3, 
}; 
type t type ; 类 型 meta, Pg， temp 
spg t pgid; 对 应 的 pgid 
uint64 七 removal seq; // 这 个 字段 不 再 使 用 ， 没 有 编码 持久 化 存储 
string _str;  // 缓 存 的 字符 事 


collection 有 三 种 不 同 的 类 型 : TYPE_META 类 型 表示 这 个 PG 里 保存 的 是 元 数据 (meta) 相关 的 对 象 ，TYPE_PG 表 示 该 collection 保 存 的 是 PG 相关 的 数据 ，TYPE_PG_TEMP 保 存 临 时 对 象 。 


当 一 个 PG 的 对 象 数量 比较 多 时 ， 就 会 在 一 个 目录 里 保存 大 量 的 文件 。 对 于 底层 文件 系统 来 说 ， 如 果 一 个 目录 里 保存 大 量 文件 ， 当 达到 一 定 的 程度 后 ， 性 能 会 急剧 下 降 。 那 么 就 需要 一 个 collection 里 对 
应 多 个 层级 的 子 目 录 来 存储 大 量 文件 ， 从 而 提高 性 能 。 


加 7-4 为 CollectionIndex 的 静态 类 图 。IndexManager 类 为 管理 CollecionIndex 的 实现 。Hashindex 实 现 了 LFNIndex，LFNIndex 实 现 了 CollectionIndex 接 口 。 


IndexManager ~ | CollectIndex 


图 7-4 ”CollectionIndex 静 态 类 图 


7.7 本章 小 结 
本 章 介 绍 本 地 对 象 存 储 的 基本 概念 ， 以 及 ObjectStore 对 象 存储 接口 ， 通 过 它 可 以 了 解 对 象 存储 如 何 调用 。 然 后 介绍 了 Journal 的 对 外 接口 和 Filejournal 的 实现 ， 以 及 Filestore 的 更 新 操作 。 最 后 介绍 了 对 象 
omap 实 现 以 及 对 象 在 本 地 文件 系统 中 的 组 织 方式 。 


目前 对 象 存储 是 研究 的 热点 。 通 过 上 述 介绍 可 知 ，FileStore 的 日 志方 式 的 写 操作 都 需要 数据 的 两 次 写 入 : 一 次 写 日 志 ， 另 一 次 写 数 据 对 象 。 对 于 S3 接 口 的 对 象 存储 等 应 用 场景 ， 双 写 是 没有 必要 的 。 社 区 
推出 了 新 的 存储 引擎 BlueStore， 其 解决 了 某 些 场景 下 的 避免 双 写 ， 同 时 提高 了 性 能 。 但 目前 BlueStore 还 不 稳定 ， 不 能 用 于 生产 环境 。 


第 8 章 ”Ceph 纠 删 码 


本 章 介 绍 Ceph 纠 删 码 (Erasure Code，EC) 的 实现 。 首 先 介绍 纠 删 码 的 原理 ， 并 对 几 种 不 同 的 编码 原理 进行 分 析 ， 然 后 介绍 纠 删 码 的 具体 实现 。 其 实现 过 程 大 部 分 远 辑 和 副本 类 似 ， 这 里 着 重 介 绍 能 完 
成 数据 回 滚 操 作 的 不 同 实现 点 。 


8.1 EC 的 基本 原理 


纠 删 码 (EC) 是 最 近 一 段 时 间 存储 领域 (特别 是 在 云 存 储 领域 ) 比较 流行 的 数据 宛 余 存储 的 方法 ， 它 的 原理 和 传统 的 RAID 类 似 ， 但 是 比 RAID 方 式 更 灵活 。 


它 将 写 入 的 数据 分 成 N 份 原始 数据 ， 通 过 这 N 份 原始 数据 计算 出 M 份 效 验 数 据 。 把 N+ M 份 数据 分 别 保存 在 不 同 的 设备 或 者 节点 中 ， 并 通过 N+ M 份 中 的 任意 N 份 数据 块 还 原 出 所 有 数据 块 。 


EC 包含 了 编码 和 解码 两 个 过 程 : 将 原始 的 N 份 数据 计算 出 M 份 效 验 数据 称 为 编码 过 程 ; 通过 这 N+ M 份 数据 中 的 任意 N 份 数据 来 还 原 出 原始 数据 的 过 程 称 为 解码 过 程 。EC 可 以 容忍 M 份 数据 失效 ， 任 意 
小 于 等 于 M 份 的 数据 失效 能 通过 剩 下 的 数据 还 原 出 原始 数据 。 


目前 一 些 主流 的 云 存储 厂商 都 采用 EC 编码 方式 。Google GFS ll 中 采用 了 最 基本 的 RS (6，3) 编码 ，Facebook 的 HDFS RAID 的 早期 编码 方式 为 RS (10，4) 编码 。 微 软 的 云 存储 系统 Azure 使 用 了 的 
LRC (12，2，2) 编码 。 


8.2 EC 的 不 同 插件 


Ceph 支 持 以 插件 的 形式 来 指定 不 同 的 EC 编码 方式 。 各 种 编码 的 不 同 点 ， 实 质 就 是 在 ErasureCode 的 三 个 指标 之 间 折 中 的 结果 ， 这 个 三 指标 是 : 空间 利用 率 、 数 据 可 靠 性 和 恢复 效率 。 


8.3 ”Ceph 中 EC 的 实现 


8.3.1 ”Ceph 中 EC 的 基本 概念 


下 面 介绍 一 些 EC 的 基本 概念 。 注 意 ， 这 里 stripe 的 概念 是 指 RADOS 系 统 定义 的 ， 可 能 与 其 他 系统 的 定义 不 同 。 
“chunk: 一 个 数据 块 就 叫 data chunk， 简 称 chunk， 其 大 小 为 chunk_size 设 置 的 字 节 数 。 
“stripe: 用 来 计算 同一 个 校 验 块 的 一 组 数据 块 ， 称 为 data sttipe， 简 称 stripe， 其 大 小 为 stripe_width， 参 与 的 数据 块 的 数目 为 stripe_size， 这 几 个 概念 的 关系 如 下 : 


stripe width=chunk _sizexstripe_size 


如 图 8-2 所 示 为 一 个 EC (4+2) 示例 : stripe_size 为 4，chunk_size 的 大 小 为 1K， 那 么 stripe_width 的 大 小 就 为 4K。 在 Ceph 系 统 中 ， 默 认 的 stirpe_width 就 为 4K。 
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8-2 EC 的 分 片 示 
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8.4 EC 的 源 代码 分 析 


对 应 EC 的 上 述 三 种 更 新 操作 ， 其 本 地 回 滚 的 信息 都 记录 在 对 应 的 PG 日 志 记录 的 mod _desc 里 : 


struct Pg_1og_entry t{ 


在 函数 ReplicatedPG: : do_osd_ops 中 实现 操作 的 事务 封装 ， 下 面 着 重 分 析 一 下 EC 的 写 操作 和 write_full 操 作 的 实现 。 


8.5 ”本 章 小 结 


本 章 介绍 Ceph 纠 删 码 的 编码 原理 ， 以 及 目前 支持 的 操作 和 目前 尚 不 支持 其 他 操作 的 原因 ， 并 简单 介绍 了 EC 的 代码 实现 。 目 前 纠 删 码 的 研究 是 一 个 热点 。 它 可 以 极 大 地 提供 存储 利用 率 ， 降 低 存 储 成 本 。 
目前 研究 都 在 着 力 研究 纠 删 码 如 何 直接 支持 块 存储 ， 也 就 是 随机 overwtite 操 作 的 能 力 。 


第 9 章 “Ceph 快 照 和 克隆 


本 章 介绍 Ceph 的 高 级 数据 功能 : 快照 和 克隆 ， 它 们 在 企业 级 的 存储 系统 中 是 必 不 可 少 的 。 这 里 首先 介绍 Ceph 中 快照 和 克隆 的 基本 概念 ， 其 次 介绍 快照 实现 相关 的 数据 结构 ， 然 后 介绍 快照 操作 的 原理 ， 
最 后 分 析 快照 的 读 写 操作 的 源 代 码 实 现 。 


9.1 基本 概念 


下 面 介绍 快照 和 克隆 的 基本 概念 ， 以 及 二 者 之 间 的 区 别 。 


9.2 ”快照 实现 的 核心 数据 结构 


快照 的 核心 数据 结构 如 下 : 

-head 对象: 也 就 是 对 象 的 原始 对 象 ， 该 对 象 可 以 进行 写 操作 。 

. snap 对 象 : 对 某 个 对 象 做 快照 后 ， 通 过 cow 机 制 copy 出 来 的 快照 对 象 只 能 读 ， 不 能 写 。 

.snap_seq 或 者 seq: 快照 序 号 ， 每 次 做 snapshot 操 作 系统 都 分 配 一 个 相应 快照 序号 ， 该 快照 序号 在 后 面 的 写 操作 中 发 挥 重 要 作用 。 


.snapdir 对 象 : 当 head 对 象 被 删除 后 ， 仍 然 有 snap 和 clone 对 象 ， 系 统 自动 创建 一 个 snapdir 对 象 ， 来 保存 SnapSet 信 息 。head 对 象 和 snapdir 对 象 只 有 一 个 存在 ， 其 属性 都 可 以 保存 快照 相关 的 信息 。 这 主要 用 
于 文件 系统 的 快照 实现 。 


1.SnapContext 


在 文件 libradosloCtxImpl.h 中 定义 了 snap 相 关 的 数据 结构 : 


struct SnapContext { 
snapid t seq; // 最 新 的 快照 序号 
vector<snapid t> snaps; // 当 前 存在 的 快照 序号 ， 降 序 排队 
} 


SnapContext 数 据 结构 用 来 在 客户 端 (RBD 端 ) 保存 snap 相 关 的 信息 。 这 个 结构 持久 化 存储 在 RBD 的 元 数据 中 : 


struct librados::IoCtxImpl { 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15932/0EBPS/Text/. .http://www.hzcourse.com/resource/readBook?path=/openresources/teach 
snapid t snap seq; 
: :SnapContext snapc; 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15932/0EBPS/Text/. .http://www.hzcourse.com/resource/readBook?path=/openresources/teach 
} 


其 中 : 
“seq 为 最 新 的 快照 序号 。 
“snaps 降 序 保存 了 该 RBD 的 所 有 的 快照 序号 。 


数据 结构 loCtxImpl 里 的 snap_seq 一 般 也 称 为 快照 的 id (snap id) 。 当 打开 一 个 image 时 ， 如 果 打 开 的 是 一 个 卷 的 快照 ， 那 么 snap_seq 的 值 就 是 该 snap 对 应 的 快照 序号 。 否 则 snap_seq 就 为 
CEPH_NOSNAP (-2) ， 来 表示 操作 的 不 是 卷 的 快照 ， 而 是 卷 自 身 。 


2.SnapSet 


数据 结构 SnapSet 用 于 保存 Server 端 (也 就 是 OSD 端 ) 与 快照 相关 的 信息 : 


struct SnapSet { 
snapid t seq; // 最 新 的 快照 序号 
bool head exists; //head 对 象 是 否 存储 
vector<snapid t> snaps;  // 所 有 的 快照 序号 列表 (降序 排列 ) 
vector<snapid t> clones; // 所 有 的 clone 对 象 序 号 列表 (升序 排列 ) 
map<snapid t, interval set<uint64 t> > clone overlap; 
// 和 上 次 clone 对 象 之 间 ovVerlap 的 部 分 
map<snapid t, uint64 t> clone size; 


//clone 对 象 的 size 
} 


下 面 是 其 中 一 些 数据 字段 介绍 : 
“seq 保存 最 新 的 快照 序号 。 
“ head_exists 保 存 head 对 象 是 否 存在 。 
“ snaps 保 存 所 有 的 快照 序号 。 
“clones 保 存 所 有 快照 后 的 写 操 作 需 要 clone 的 对 象 记录 。 


这 里 特别 强调 的 是 clones 和 snaps 的 区 别 。 由 于 不 是 每 次 做 快照 操作 后 ， 都 要 拷贝 对 象 。 只 当 快 照 操作 后 有 写 操作 ， 才 会 触发 相关 对 象 的 clone 操 作 复制 出 一 份 新 的 对 象 ， 该 对 象 是 clone 出 来 的 ， 其 快 
照 序号 记录 在 clones 队 列 中 ， 称 为 clone 对 象 。 


“ clone_overlap 保 存 本 次 clone 对 象 和 上 次 clone 对 象 ( 或 者 head 对 象 ) 的 overlap 的 部 分 ， 也 就 是 重合 的 部 分 。clone 操 作 后 ， 每 次 写 操 作 ， 都 要 维护 这 个 信息 。 这 个 信息 用 于 在 数据 恢复 阶段 对 象 恢复 的 优 


“ clone_size 保 存 每 次 clone 后 的 对 象 的 size。 


SnapSet 数 据 结 构 持 久 化 保存 在 head 对 象 的 xattr 的 扩展 属性 中 : 


“ 在 Head 对 象 的 xattr 中 保存 key 为 snapset，value 为 SnapSet 结 构 序 列 化 后 的 值 。 


“ 在 snap 对 象 的 xattr 中 保存 key 为 user.cephos.seq 的 snap_seq 值 。 


9.3 ”快照 的 工作 原理 


9.3.1 快照 的 创建 


RBD 快 照 创建 的 基本 步骤 如 下 : 


1) 向 Monitor 发 送 请 求 ， 获 取 一 个 最 新 的 快照 序号 snap_seq 的 值 。 


2) 把 该 次 快照 的 snap_name 和 snap_seq 的 值 保存 到 RBD 的 元 数据 中 。 


在 RBD 的 元 数据 里 保存 了 所 有 快照 的 名 字 和 对 应 的 snap_seq 号 ， 并 不 会 触发 OSD 端 的 数据 操作 ， 所 以 非常 快 。 


9.4 ”快照 读 写 操作 源 代码 分 析 


下 面 着 重 分 析 快 照 的 写 操作 和 读 操作 相关 的 源 代码 实现 。 


9.5 本章 小 结 


Ceph 的 基于 Copy-on-Write 的 机 制 实现 了 秒 级 别 的 快照 ， 其 高 效率 的 核心 原理 在 于 做 快照 操作 时 不 会 直接 拷贝 数据 ， 而 是 只 做 了 快照 的 记录 ， 当 只 有 实际 的 写 操作 发 生 时 ， 才 实现 对 象 的 拷贝 操作 。 实 质 
就 是 把 整个 卷 的 拷贝 操作 开销 分 散 到 后 续 每 次 写 操作 过 程 中 ， 这 样 就 实现 了 快照 操作 只 是 增加 了 新 的 快照 记录 ， 所 以 快照 操作 可 以 在 秒 级 实现 。 


第 10 章 Ceph Peering 机 制 


本 章 介绍 Ceph 中 比较 复杂 的 模块 : Peering 机 制 。 该 过 程 保障 PG 内 各 个 副本 之 间 数 据 的 一 致 性 ， 并 实现 PG 的 各 种 状态 的 维护 和 和 转换。 本 章 首 先 介 绍 boost 库 的 statechart 状 态 机 基本 知识 ，Ceph 使 用 它 来 管理 
PG 的 状态 转换 。 其 次 介绍 PG 的 创建 过 程 以 及 相应 的 状态 机 创建 和 初始 化 。 然 后 详细 介绍 Peering 机 制 三 个 有 具体 的 实现 阶段 : GetInfo、GetLog、GetMissing。 


10.1 statechart 状 态 机 


Ceph 在 处 理 PG 的 状态 转换 时 ， 使 用 了 boost 库 提供 的 statechart 状 态 机 。 因 此 先 简单 介绍 一 下 statechart 状 态 机 的 基本 概念 和 涉及 的 相关 知识 ， 以 便 更 好 地 理解 Peering 过 程 中 PG 的 状态 机 转换 流程 。 
下 面 在 举例 时 截取 了 PG 状态 机 的 部 分 代码 。 


10.2 ”PG 状态 机 


在 类 PG 的 内 部 定义 了 类 RecoveryState,， 该 类 RecoveryState 的 内 部 定义 了 PG 的 状态 机 RecoveryMachine 和 它 的 各 种 状态 。 


在 每 个 PG 对 象 创建 时 ， 在 构造 函数 里 创建 一 个 新 的 RecoveryState 类 的 对 象 ， 并 创建 相应 的 RecoveryMachine 类 的 对 象 ， 也 就 是 创建 了 一 个 新 的 状态 机 。 每 个 PG 类 对 应 一 个 独立 的 状态 机 来 控制 该 PG 
的 状态 转换 。 


图 10-1 为 PG 状态 机 的 总 体 状态 转换 图 ， 相 对 比较 复杂 ， 在 介绍 相关 的 内 容 模块 时 再 逐一 详细 介绍 。 


10.3 ”PG 的 创建 过 程 


在 PG 的 创建 过 程 中 完成 了 PG 对 应 的 状态 机 的 创建 和 状态 机 的 初始 化 操作 。 一 个 PG 的 创建 过 程 会 由 其 所 在 OSD 在 PG 中 担任 的 角色 不 同 ， 创 建 的 机 制 也 不 相同 。 


10.4 ”PG 创建 后 状态 机 的 状态 转换 


司 10-2 为 PG 总 体 状 态 转换 图 的 简化 版 : 状态 Peering、Active、RelicaActive 的 内 部 状态 没有 添加 进去 。 


通过 该 图 可 以 了 解 PG 的 高 层 状态 转换 过 程 ， 如 下 所 示 : 


1) 当 PG 创 建 后 ， 同 时 在 该 类 内 部 创建 了 一 个 属于 该 PG 的 RecoveryMachine 类 型 的 状态 机 ， 该 状态 机 的 初始 化 状态 为 默认 初始 化 状态 Initial。 


2) 在 PG 创 建 后 ， 调 用 函数 pg->handle_create (&rctx) 来 给 状态 机 投递 事件 : 


void PG::handle create (RecoveryCtx *rctx){ 
dout (10) << "handle create" << dendl; 
Initialize evt; 网 
recovery state.handle event (evt, rctx); 
ActMap evt2; 
recovery_state.handle event (evt2, rctx); 


[ 


由 以 上 代码 可 知 : 该 函数 首先 向 RecoveryMachine 投 递 了 Initialize 类 型 的 事件 。 由 
RecoveryMachine 投 递 了 ActMap 事 件 。 


10-2 可 知 ， 状 态 机 在 RecoveyMachine/Initial 状 态 接收 到 Initialize 类 型 的 事件 后 直接 转移 到 Reset 状 态 。 其 次 ， 向 


3) 状态 Reset 接 收 到 ActMap 事 件 ， 跳 转 到 Started 状 态 。 


boost: :statechart: :result PG: :RecoveryState: :Reset::react (Const ActMap&) {…… 
return transit< Started >() 7 
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图 10-2 PG 总 体 状 态 图 的 简化 版 


在 自 定义 的 react 函 数 里 直接 调用 了 transit 函 数 跳 转 到 Started 状 态 。 


4) 进入 状态 RecoveryMachine/Started 后 ， 就 进入 RecoveryMachine/Started 的 默认 的 子 状态 RecoveryMachine/Started/Start 中 : 


PG: :RecoveryState: :Start::Start (my_context ctx) 

: my_base (ctx), 

NamedState (context< RecoveryMachine >() .pg->cct, "Start") 

{ 

Context< RecoveryMachine >() .log enter (state name); 

PG *pg = context< RecoveryMachine >() .pg; 

if (pg->is primary()) { 
dout (1) << "transitioning to Primary" << dendl; 
Post_event (MakePrimary() ) 7 
else { //is stray 
dout(1) << Wtransitioning to Stray" << dendl; 
Post_event (MakeStray ()); 


由 以 上 代码 可 知 ， 在 Start 状 态 的 构造 函数 中 ， 根 据 本 OSD 在 该 PG 中 担任 的 角色 不 同 分 别 进行 如 下 处 理 : 
“ 如 果 是 主 DOSD， 就 调用 函数 post_event， 抛 出 事件 MakePrimary， 进 入 主 OSD 的 默认 子 状 态 Primary/Peering 中 。 


“如果 是 从 OSD， 就 调用 函数 post_event， 抛 出 事件 MakeStray， 进 入 Started/Stray 状 态 。 


对 于 一 个 PG 的 OSD 处 于 Stray 居 态 ， 是 指 该 OSD 上 的 PG 副本 目前 状态 不 确定 ， 但 是 可 以 响应 主 OSD 的 各 种 查询 操作 。 它 有 两 种 可 能 ; 一 种 是 最 终 转 移 到 状态 ReplicatActive， 处 于 活跃 状态 ， 成 为 PG 的 
一 个 副本 。 另 一 种 可 能 的 情况 是 : 如 果 是 数据 渤 移 的 源 端 ， 可 能 一 直 保 持 Stray 状 态 ， 该 OSD 上 的 副本 可 能 在 数据 注 移 完成 后 ，PG 以 及 数据 就 都 被 开除 了 。 


10.5 ”Ceph 的 Peering 过 程 分 析 


在 介绍 了 statechar 状 态 机 和 PG 的 创建 过 程 后 ， 正 式 开始 Peering 过 程 介绍 。Peering 的 过 程 使 一 个 PG 内 的 OSD 达 成 一 个 一 致 状态 。 当 主 从 副本 达成 一 个 一 致 的 状态 后 ，PG 处 于 active 状 态 ，Peering 过 


程 的 状态 就 结束 了 。 但 此 时 该 PG 的 三 个 OSD 的 数据 副本 上 的 数据 并 非 完 全 一 致 。 
PG 在 如 下 两 种 情况 下 触发 Peering 过 程 。 
“ 当 系 统 初 始 化 时 ，O 〇 SD 重新 启动 导致 PG 重新 加 载 ， 或 者 PG 新 创建 时 ，PG 会 发 起 一 次 Peering 的 过 程 。 


“ 当 有 OSD 失 效 ，OSD 的 增加 或 者 删除 等 导致 PG 的 acting set 发 生 了 变化 ， 该 PG 就 会 重新 发 起 一 次 Peering 过 程 。 


10.6 本章 小 结 


本 章 介 绍 了 Ceph 的 Peering 过 程 ， 其 核心 过 程 就 是 通过 各 个 OSD 上 保存 的 PG 日 志 选 择 出 一 个 权威 日 志 的 OSD。 以 该 OSD 上 的 日 志 为 上 基础， 对比 其 他 OSD 上 的 日 志 记 录 ， 计 算出 各 个 OSD 上 缺失 的 对 象 信 
息 。 这 样 ， PG 就 使 各 个 OSD 的 数据 达成 了 一 致 。 


第 11 章 ”Ceph 数 据 修复 


当 PG 完 成 了 Peering 过 程 后 ， 处 于 Active 状 态 的 PG 就 已 经 可 以 对 外 提供 服务 了 。 如 果 该 PG 的 各 个 副本 上 有 不 一 致 的 对 象 ， 就 需要 进行 修复 。Ceph 的 修复 过 程 有 两 种 : Recovery 和 Backfill。 


Recovery 是 仅 依据 PG 日 志 中 的 缺失 记录 来 修复 不 一 致 的 对 象 。Backfill 是 PG 通过 重新 扫描 所 有 的 对 象 ， 对 比 发 现 缺 失 的 对 象 ， 通 过 整体 拷贝 来 修复 。 当 一 个 OSD 失 效 时 间 过 长 导致 无 法 根据 PG 日 志 来 修 
复 ， 或 者 新 加 入 的 OSD 导 臻 数据 迁移 时 ， 就 会 启动 Backfill 过 程 。 


从 第 10 章 可 知 ，PG 完 成 Peering 过 程 后 ， 就 处 于 activate 状 态 ， 如 果 需 要 Recovery， 就 产生 DoRecovery 事 件 ， 触 发 修复 操作 。 如 果 需 要 Backfill， 就 会 产生 RequestBackfill 事 件 来 触发 Backfill 操 作 。 在 PG 的 数据 
修复 过 程 中 ， 如 果 既 有 需要 Recovery 过 程 的 OSD， 又 有 需要 Backfill 过 程 的 OSD， 那 么 处 理 过 程 需 要 先进 行 Recovery 过 程 的 修复 ， 再 完成 Backfill 过 程 的 修复 。 


本 章 介 绍 Ceph 的 数据 修复 的 实现 过 程 。 首 先 介绍 数据 修复 的 资源 预约 的 知识 ， 然 后 通过 介绍 修复 的 状态 转换 图 ， 大 概 了 解 整个 数据 修复 的 过 程 。 最 后 分 别 详细 介绍 Recovery 过 程 和 Backfill 过 程 的 具体 实 
现 。 


在 数据 修复 的 过 程 中 ， 为 了 控制 一 个 OSD 上 正在 修复 的 PG 最 大 数目 ， 需 要 资源 预约 ， 在 主 OSD 上 和 从 OSD 上 都 需要 预约 。 如 果 没 有 预约 成 功 ， 需 要 阻塞 等 待 。 一 个 OSD 能 同时 修复 的 最 大 PG 数 在 配 
选项 osd_max_backfills 中 设置 ， 默 认 值 为 1。 


类 AsyncReserver 用 来 管理 资源 预约 ， 其 模板 参数 <T> 为 要 预约 的 资源 类 型 。 该 类 实现 了 异步 的 资源 预约 。 当 成 功 完成 资源 预约 后 ， 就 调用 注册 的 回调 函数 通知 调用 方 预约 成 功 : 


class AsyncReserver { 
unsigned max allowed;  // 定 义 克 许 的 最 大 资源 数量 ， 在 这 里 指 克 许 修复 的 PG 的 数量 
unsigned min priority; // 最 小 的 优先 级 
Finisher *f; // 当 预约 成 功 够 ， 用 来 执行 的 回调 函数 
map<unsigned, list<pair<T, Context*> > > queues; 
// 优 先 级 到 待 预 约 资源 链表 的 映射 ， pair<T，Context*> 定义 预约 的 资源 和 注册 的 回调 函数 


map<T, pair<unsigned, typename list<pair<T, Context*> >::iterator > > queue pointers; // 资 源 在 queue 链 表 中 的 位 置 指针 
set<T> in progress; // 预 约 成 功 ， 正 在 使 用 的 资源 

} 

1. 资 源 预 约 


函数 request_reservation 用 于 预约 资源 : 


void request reservation( 


T item, // 输 入 套数: 申请 的 资源 
Context *on reserved, // 输 入 参数 : 申请 成 功 后 的 回调 函数 
具体 处 理 过 程 如 下 : 


1) 把 要 请 求 的 资源 根据 优先 级 添加 到 queue 队 列 中 ， 并 在 queue_pointers 中 添加 其 对 应 的 位 置 指针 : 


queues [prio] .push back (make pair(item, on reserved)); 
queue pointers.insert (make pair (item,make pair (prio,-- (queues[prio]). 
end()))); 


2) 调用 函数 do_queues 用 来 检查 queue 中 的 所 有 资源 预约 申请 : 从 优先 级 高 的 请 求 开始 检查 ， 如 果 还 有 配额 并 且 其 请 求 的 优先 级 至 少 不 小 于 最 小 优先 级 ， 就 把 资源 授权 给 它 。 


3) 在 queue 队 列 中 删除 该 资源 预约 请 求 ， 并 在 queue_pointers 删 除 该 资源 的 位 置信 息 。 把 该 资源 添加 到 in_progress 队 列 中 ， 并 把 请 求 相应 的 回调 函数 添加 到 Finisher 类 中 ， 使 其 执行 该 
后 通知 预约 成 功 。 


回 


调 函 数 。 最 


2. 取 消 预约 


函数 cancel_reservation 用 于 释放 拥有 的 不 再 使 用 的 资源 : 


Void cancel reservation( 
T item // 输 入 参数 : 删除 申请 的 资源 
) 


具体 处 理 过 程 如 下 : 


1) 如 果 该 资源 还 在 queue 队 列 中 ， 就 删除 (这 属于 异常 情况 的 处 理 ) ; 否则 在 in_progress 队 列 中 删除 该 资源 。 


2) 调用 do_queues 函 数 把 该 资源 重新 授权 给 其 他 等 待 的 请 求 。 


11.2 ”数据 修复 状态 转换 图 


如 图 11-1 所 示 的 是 修复 过 程 状态 转换 图 。 当 PG 进入 Active 状 态 后 ， 就 进入 默认 的 子 状态 Activating。 
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图 11-1 修复 过 程 状态 转换 图 


数据 修复 的 状态 转换 过 程 如 下 所 示 。 


情况 1: 当 进 入 Activating 状 态 后 ， 如 果 此 时 所 有 的 副本 都 完整 ， 不 需要 修复 ， 其 状态 转移 过 程 如 下 : 


1) Activating 状 态 接收 到 AllReplicatedRecovered 事 件 ， 直 接 转换 到 Recovered 状 态 。 


[D 


Recovered 状 态 接收 到 GoClean 事 件 ， 整 个 PG 转 入 Clean 状 态 。 


情况 2: 当 进 入 Activating 状 态 后 ， 没 有 Recovery 过 程 ， 只 需要 Backfill 过 程 的 情况 : 


ee 


Activating 状 态 直 接 接收 到 RequestBackfill 事 件 ， 进 入 WaitLocalBackfillReservede 状 态 。 


2) 当 WaitLocalBackfillReservede 状 态 接收 到 LocalBackfillReserved 事 件 后 ， 意 味 着 本 地 资源 预约 成 功 ， 转 入 WaitRemoteBackfillReserved 状 态 。 


Wu 


所 有 副本 资源 预约 成 功 后 ， 主 PG 就 会 接收 到 AllBackfillsReserved 事 件 ， 进 入 Backfilling 状 态 ， 开 始 实际 数据 Backfill 操 作 过 程 。 


4) Backfilling 状 态 接收 Backfilled 事 件 ， 标 志 Backfill 过 程 完成 ， 进 入 Recovered 状 态 。 


5) 异常 处 理 : 当 在 状态 WaitRemotBackfillReserved 和 Backfilling 接 收 到 Remote ReservationRejected 事 件 时 ， 表 明 资 源 预约 失败 ， 进 入 NotBackfilling 状 态 ， 再 次 等 待 RequestBackfilling 对 


件 来 和 


新 发 起 Backfill 过 程 。 


情况 3: 当 PG 既 需要 Recovery 过 程 ， 也 可 能 需要 Backfill 过 程 时 ，PG 先 完成 Recovery 过 程 ， 再 完成 Backfil 过 程 ， 特 别 强 调 这 里 的 先后 顺序 。 其 具体 过 程 如 下 : 


1) Activating 状 态 : 在 接收 到 DoRecovery 事 件 后， 转移 到 WaitLocalRecoveryReserved 状 态 。 


2) WaitLocalRecoveryReserved 状 态 : 在 这 个 状态 中 完成 本 地 资源 的 预约 。 当 收 到 LocalRecoveryReserved 事 件 后 ， 标 志 着 本 地 资源 预约 的 完成 ， 转 移 到 WaitRemote-RecoveryReserved 状 态 。 


3) WaitRemoteRecoveryReserved 状 态 : 在 这 个 状态 中 完成 远程 资源 的 预约 。 当 接收 到 AllRemotesReserved 事 件 ， 标 志 着 该 PG 在 所 有 参与 数据 修复 的 从 OSD 上 完成 资源 预约 ， 进 入 Recoverying 状 


4) Recoverying 状 态 : 在 这 个 状态 中 完成 实际 的 数据 修复 工作 。 完 成 后 把 PG 设置 为 PG_STATE_RECOVERING 状 态 ， 并 把 PG 添加 到 recovery wq 工 作 队列 中 ， 开 始 启 动 数 据 修复 : 


pg->state clear (PG STATE RECOVERY WAIT); 
pg->state set (PG _STATE RECOVERING); 
Pp9g->0sd->queue for recovery (pg); 


5) 在 Recoverying 状 态 完成 Recovery 工 作 后 ， 如 果 需 要 Backfill 工 作 ， 就 接收 RequestBackfill 事 件 ， 转 入 Backfill 流 程 。 


6) 如 果 没 有 Back 人 il 工作 流程 ， 直 接 接收 AllReplicasRecovered 事 件 ， 转 入 Recovered 状 态 。 


7) Recovered 状 态 : 到 达 本 状态 ， 意 味 着 已 经 完成 数据 修复 工作 。 当 收 到 事件 GoClean 后 ，PG 就 进入 clean 状 态 。 


11.3 ”Recovery 过 程 


数据 修复 的 依据 是 在 Peering 过 程 中 产生 的 如 下 信息 : 


“ 主 副 本 上 的 缺失 对 象 的 信息 保存 在 pg log 类 的 pg_missing t 结 构 中 。 


. 各 从 副本 上 的 缺失 对 象 信息 保存 在 OSD 对 应 的 peer_missing 中 的 pg_missing_t 结 构 中 。 


“ 缺失 对 象 的 位 置信 息 保存 在 类 MissingLoc 中 。 


根据 以 上 信息 ， 就 可 以 知道 该 PG 里 各 个 OSD 缺 失 的 对 象 信息 ， 以 及 该 缺失 的 对 象 目前 在 哪些 OSD 上 有 完整 的 信息 。 基 于 上 面 的 信息 ， 数 据 修复 过 程 就 相对 比较 清晰 : 


“ 对 于 主 OSD 缺 失 的 对 象 ， 随 机 选择 一 个 拥有 该 对 象 的 OSD ， 把 数据 拉 取 过 来 。 
“ 对 于 replica 缺 失 的 对 象 ， 从 主 副本 上 把 缺失 的 对 象 数据 推送 到 从 副本 上 来 完成 数据 的 修复 。 


“ 对 于 比较 特殊 的 快照 对 象 ， 在 修复 时 加 入 了 一 些 优化 的 方法 。 


11.4 ”Backfill 过 程 


当 PG 完 成 了 Recovery 过 程 之 后 ， 如 果 backfill_ targets 不 为 空 ， 表 明 有 需要 Backfil 过 程 的 OSD， 就 需要 启动 Backfill 的 任务 ， 来 完成 PG 的 全 部 修复 。 下 面 介绍 Backfill 过 程 相关 的 数据 结构 和 具体 处 理 过 
程 。 


11.5 本章 小 结 


本 章 介绍 了 Ceph 的 数据 修复 的 过 程 ， 有 两 个 过 程 : Recovery 过 程 和 Backfill 过 程 。Recovery 过 程 根据 missing 记 录 ， 先 完成 主 副 本 的 修复 ， 然 后 完成 从 副本 的 修复 。 对 于 不 能 通过 日 志 修 复 的 OSD，Backfill 过 
程 通过 扫描 各 个 部 分 上 的 对 象 来 全 量 修复 。 整 个 Ceph 的 数据 修复 过 程 比 较 清 晰 ， 比 较 复 杂 的 副本 可 能 就 是 涉及 快照 对 象 的 修复 处 理 。 


目前 这 部 分 代码 是 Ceph 最 核心 的 代码 ， 除 非 必要 ， 都 不 会 轻易 修改 。 目 前 社区 也 提出 了 修复 时 的 一 种 优化 方法 。 就 是 在 日 志 里 记录 修改 的 对 象 范围 ， 这 样 在 Recovery 过 程 中 不 必 拷 贝 整个 对 象 来 修复 
只 修复 修改 过 的 对 象 对 应 的 范围 即 可 ， 这 样 在 某 些 情况 下 可 以 减少 修复 的 数据 量 。 


第 12 章 ”Ceph 一 致 性 检查 


本 章 介绍 Ceph 的 一 致 性 检查 工具 Scrub 机 制 。 首 先 介 绍 数据 校 验 的 基本 知识 ， 其 次 介绍 Scrub 的 基本 概念 ， 然 后 介绍 Scrub 的 调度 机 制 ， 最 后 介绍 Scrub 具 体 实现 的 源 代码 分 析 。 


12.1” 端 到 端的 数据 校 验 


在 存储 系统 中 可 能 会 发 生 数据 静默 损坏 (Silent Data Corruption) ， 这 种 情况 的 发 生 大 多 是 由 于 数据 的 某 一 位 发 生 异 常 反 转 (Bit Error Rate) 。 


12-1 是 一 般 存储 系统 的 协议 栈 ， 数 据 损坏 的 情况 会 发 生 在 系统 的 所 有 模块 中 : 


[ 


: 硬件 错误 ， 例 如 内 存 、CPU、 网 卡 等 。 
“ 数据 传输 过 程 中 的 信 嗓 干扰 ， 例 如 SATA、FC 等 协议 。 


“ 固件 bug， 例 如 RAID 控 制 器 、 磁 盘 控 制 、 网 卡 等 。 


. 软件 bug， 例 如 操作 系统 内 核 的 bug， 本 地 文件 系统 的 bug，SCSI 软 件 模块 的 bug 等 。 
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图 12-1 一般 存储 系统 的 协议 栈 


在 传统 的 高 端 磁盘 阵列 中 ， 一 般 采 用 端 到 端的 数据 校 验 实现 数据 的 一 致 性 。 所 谓 端 到 端的 数据 校 输 ， 指 客户 端 (应 用 层 ) 在 写 入 数据 时 ， 为 每 个 数据 块 都 计算 一 个 CRC 校 验 信息 ， 并 将 这 个 校 验 信息 和 
数据 块 发 送 至 磁盘 (Disk) 。 磁 盘 在 接收 到 数据 包 之 后 ， 会 重新 计算 校 验 信息 ， 并 和 接收 到 的 校 验 信息 作对 比 。 如 果 不 一 致 ， 那 么 就 认为 在 整个 VO 路 径 上 存在 错误 ， 返 回 /O 操 作 失 败 ; 如 果 校 验 成 功 ， 就 
把 数据 校 验 信息 和 数据 保存 在 磁盘 上 。 同 样 ， 在 数据 读 取 时 ， 客 户 端 再 获取 数据 块 和 从 磁盘 读 取 校 验 信息 时 ， 也 需要 再 次 检查 是 否 一 致 。 


通过 这 种 方法 ， 应 用 层 可 以 很 明确 地 知道 一 次 VO 请 求 的 数据 是 否 一 致 。 如 果 操 作成 功 ， 那 么 磁盘 上 的 数据 必然 是 正确 的 。 


这 种 方式 在 不 影响 VO 性 能 或 者 影响 比较 小 的 情况 下 ， 可 以 提高 数据 读 写 的 完整 性 。 但 这 种 方式 也 有 一 些 缺 点 : 


“ 无 法 解决 目的 地 址 错误 导致 的 数据 损坏 问题 。 


“ 端 到 端的 解决 方案 需要 在 整个 I/O 路 径 上 附加 校 验 信息 。 现 在 的 I/O 协 议 栈 涉及 的 模块 比较 多 ， 每 个 模块 都 附加 这 种 校 验 信息 实现 起 来 比较 困难 。 


由 于 这 种 实现 方式 对 Ceph 的 MO 性 能 影响 比较 大 ， 所 以 Ceph 并 没有 实现 端 到 端的 数据 校 输 ， 而 是 实现 Ceph Scrub 机 制 ， 采 用 一 种 通过 在 后 台 扫描 的 方案 来 解决 Ceph 的 一 致 性 检查 。 


12.2 ” Scrub 概念 介绍 


Ceph 在 内 部 实现 了 数据 一 致 性 检查 的 一 个 工具 : Ceph Scrub。 其 原理 为 : 通过 对 比 各 个 对 象 副本 的 数据 和 元 数据 ， 完 成 副本 一 致 性 检查 。 


这 种 方法 的 优点 是 在 后 台 可 以 发 现 由 于 磁盘 损坏 而 导致 的 数据 不 一 致 现象 。 缺 点 是 发 现 的 时 机 往往 比较 滞后 。 
Scrub 按 照 扫描 的 内 容 分 为 两 种 方式 : 

一 种 叫 Scrub， 它 仅仅 通过 对 比 对 象 各 副本 的 元 数据 ， 来 检查 数据 的 一 致 性 。 由 于 只 检查 元 数据 ， 读 取 数 据 量 和 计算 量 都 比较 小 ， 是 一 种 比较 轻 度 的 检查 。 

“ 另 一 种 叫 deep-scrub， 它 进一步 检查 对 象 的 数据 内 容 是 否 一 致 ， 实 现 了 深度 扫描 ， 几 乎 要 扫描 磁盘 上 的 所 有 数据 并 计算 crc32 校 验 值 ， 因 此 比较 耗 时 ， 占 用 系统 资源 更 多 。 
Scrub 按 照 扫 描 的 方式 分 为 两 种 : 

:在线 扫描 : 不 影响 系统 正常 的 业务 。 


“ 离线 扫描 : 需要 整个 系统 暂停 或 者 冻结 。 


Ceph 的 Scrub 功 能 实现 了 在 线 检查 ， 即 不 中 断 系统 当前 读 写 请 求 ， 客 户 端 可 以 继续 完成 读 写 访问 。 整 个 系统 并 不 会 暂停 ， 但 是 后 台 正 在 进行 Scrub 的 对 象 要 被 锁定 暂时 阻止 访问 ， 直 到 该 对 象 完 成 Scrub 
操作 后 才能 解锁 允许 访问 。 


12.3” ”Scrub 的 调度 


Scrub 的 调度 解决 了 一 个 PG 何 时 启动 Scrub 扫 描 机 制 。 主 要 有 以 下 方式 : 
“ 手动 立即 启动 执行 扫描 。 
“ 在 后 台 设 置 一 定 的 时 间 间 隔 ， 按 照 间 隔 的 时 间 来 启动 。 比 如 上 默认 时 间 为 一 天 执行 一 次 。 


“ 设置 启动 的 时 间 段 。 一 般 设 定 一 个 系统 负载 比较 轻 的 时 间 段 来 执行 Scrub 操 作 。 


12.4 ”Scrub 的 执行 


Scrub 的 具体 执行 过 程 大致 如 下 : 通过 比较 对 象 各 个 OSD 上 副本 的 元 数据 和 数据 ， 来 完成 元 数据 和 数据 的 校 验 。 其 核心 处 理 流程 在 函数 PG: : chunky_scrub 里 控制 完成 。 


12.5 ”本 章 小 结 


本 章 介绍 了 Scrub 的 基本 原理 ， 及 Scrub 过 程 的 调度 机 制 ， 然 后 介绍 了 校 验 信 息 的 构建 和 比较 验证 的 具体 流程 。 
最 后 ， 总 结 一 下 Ceph 一 致 性 检查 Scrub 功 能 实现 的 关键 点 : 
“ 如 果 做 Scrub 操 作 检查 的 对 象 范围 start 和 end 之 间 有 对 象 正在 进行 写 操作 ， 就 退出 本 次 Scrub 进 程 ; 如 果 已 经 开始 启动 了 Scrub， 那 么 在 start 和 end 之 间 的 对 象 写 操作 需要 等 待 Scrub 操 作 的 完成 。 


“ 检查 就 是 对 比 主 从 副本 的 元 数据 〈size、attts、omap) 和 数据 是 否 一 致 。 权 威 对 象 的 选择 是 根据 对 象 自 己 保持 的 信息 (object info) 和 读 取 对 象 的 信息 是 否 一 致 来 选举 出 。 然 后 用 权威 对 象 对 比 其 他 对 象 
副本 来 检查 。 


第 13 章 ”Ceph 自 动 分 层 存储 


本 章 介 绍 Ceph 的 Cache Tier 模 块 ， 它 实现 了 的 自动 分 层 存储 技术 。 本 章 首 先 介绍 自动 分 层 存储 的 概念 和 原理 ， 其 次 介绍 Ceph 的 自动 分 层 存储 Cache Tier 的 读 写 模式 ， 最 后 对 Cache Tiet 的 源 代 码 进 行 详细 的 


分 析 。 


13.1 ”自动 分 层 存 储 技术 


分 层 存储 在 “信息 生命 周期 管理 ”的 基础 上 对 数据 进一步 分 层 。 这 个 概念 的 提出 基于 这 样 一 个 事实 : 在 数据 的 不 同 生命 周期 里 ， 其 访问 的 频 度 是 截然 不 同 的 ， 即 使 是 处 于 同一 生命 周期 的 不 同类 型 的 数 
据 ， 访 问 频 率 也 会 不 同 。 


自动 分 层 存 储 技术 目标 在 于 : 把 用 户 访问 频率 高 的 数据 放置 在 高 性 能 、 小 容量 的 存储 介质 中 ， 把 大 量 低频 访问 的 数据 放置 在 大 容量 、 性 能 相对 较 低 的 存储 介质 中 。 它 为 用 户 提供 的 价值 在 于 : 在 提高 热 
点 数据 存储 性 能 的 同时 ， 降 低 了 存储 成 本 。 首 先 ， 数 据 可 以 自由 安全 地 迁移 到 更 低层 的 存储 介质 中 ， 这 样 可 以 节约 存储 成 本 ; 其 次 热点 数据 可 以 自动 的 从 低层 迁移 到 高 层 存 储 层 ， 提 高 访问 热点 数据 的 性 


ab 
Be。 


自动 分 层 存 储 技术 实现 的 核心 点 在 于 : 


“ 数据 访问 行为 的 追踪 、 统 计 与 分 析 : 持续 追踪 与 统计 每 个 数据 块 的 存 取 频 率 ， 并 通过 定期 分 析 ， 识别 出 存 取 频 率 高 的 “ 热 ” 区 块 ， 与 存 取 频率 低 的 “ 冷 ” 区 块 。 
“ 数据 迁移 : 以 存 取 频率 为 基础 ， 定 期 执行 数据 迁移 ， 将 热点 数据 块 迁 移 到 高 速 存储 层 ， 把 较 不 活跃 的 冷 数 据 块 迁移 到 低速 存储 层 。 


传统 的 磁盘 阵列 存储 产品 的 自动 分 层 存储 技术 中 ， 数 据 访问 行为 统计 和 分 析 的 粒度 是 以 数据 块 为 单位 的 。 在 Ceph 中 ， 数 据 访问 行为 统计 、 分 析 以 及 数据 在 各 存储 层 之 间 迁 移 的 粒度 是 以 对 象 (默认 为 
4MB) 为 基本 单位 的 。 


13.2 “Ceph 分 层 存 储 架 构 和 原理 


在 Ceph 里 ，Cache Tier 模 块 在 pool 层 设置 。 可 以 设置 一 个 poo| 为 男 一 个 pool 的 cache 层 。 在 这 里 ， 做 缓存 层 的 pool 称 为 cache pool (或 者 cache tier、hot pool 等 ) ; 相对 低 性 能 的 存储 层 称 为 data 
pool (或 者 base pool、cold pool 等 ) 。 


13-1 是 Cache Tier 的 存储 架构 图 。 在 client 层 的 librados 对 于 Cache Tier 是 透明 的 ， 它 对 Cache Tier 是 无 感知 的 。Objecter 实 现 了 Cache Tier 相 关 的 逻辑 处 理 。Cache Tier 层 为 高 速 存储 层 ， 热 点 数据 


都 保存 在 Cache Tier 层 ，Data Tier 层 为 慢 速 设备 存储 层 ， 所 有 数据 最 终 都 会 保存 在 Data Tier 层 。 


13.3 Cache Tier 的 模式 
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Objecter 
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Data Tier 


13-1 Cache Tier 存 储 架构 图 


在 结构 cache_mode t 的 枚 举 类 型 里 ， 定 义 cache pool 有 几 种 模式 : 


* write back 


* read forward 


* read proxy 


”write proxy 


“ read only 


下 面 将 详细 介绍 各 种 模式 的 不 同 应 用 场景 。 


1.write back 模 式 


在 write back 模 式 下 ， 读 写 请 求 都 直接 发 给 cache pool， 这 种 模式 适合 于 大 量 修改 数据 的 应 用 场景 (例如 图 片 视频 编辑 、 事 务 处 理 OLTP 类 应 | 


在 write back 模 式 下 ， 读 操作 时 对 象 在 缓存 


2.read forward 模 式 


层 不 存在 (cache miss) 时 ， 有 read forward 和 read proxy 两 种 特殊 模式 进行 处 理 。 写 操作 在 缓存 不 命中 的 情况 下 有 writeproxy 的 特殊 模式 进行 处 理 。 


当 进 行 read 操 作 时 ， 对 象 不 在 cache pool 中 ， 就 直接 返回 ，client 直 接 向 data pool 发 送 请 求 ， 数 据 直接 返回 给 client。 


如 图 13-2 所 示 ， 当 客户 端 向 cache pool| 发 起 读 请 求 时 ， 出 现 cache miss 状 态 ， 就 返回 redirect 信 息 给 client，client 根 据 返回 的 redirect 信 息 ， 再 次 直接 向 base pool 


层 发 起 读 请 求 ， 并 返回 需要 的 数据 。 
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图 13-2 tead forward 模 式 


3.Read proxy 模 式 


已 


当 进 行 read 操 作 时 ， 对 象 不 在 cache pool 中 ，cache pool 层 向 data pool 发 送 请 求 ， 返 回 给 cache pool 层 ，cache pool| 层 再 返回 给 client 数 据 。 


0 图 13-3 所 示 ， 当 client 向 cache pool 发 起 读 请 求 ， 该 天 cache pool 处 于 cache miss 状 态 ，cache pool 层 向 base poo| 层 发 起 读 请 求 ， 返 回 数据 给 cache pool 层 ，cache pool| 层 忆 给 
妇 所 cli h | 发 起 读 请 求 ， 该 对 象 在 cach | 处 he miss 状 态 h | 层 向 b | 层 发 起 读 请 求 ， 返 回 数 据 给 cach | 层 h | 层 再 将 数据 返回 给 


client。 


cache pool base pool 


client cache pool base pool 


图 13-3 ”read proxy 模 式 


4.write proxy 模 式 


司 13-4 是 write proxy 模 式 示 意图 ， 当 客户 端 先 cache pool 发 起 写 操作 时 ， 处 于 cache miss 的 状态 ，cache pool 并 不 等 该 对 象 从 base pool 中 加 载 到 cache pool 中 ， 然 后 写 入 ， 而 是 直接 发 请 求 给 base 
pool， 直 接 把 数据 写 入 base pool 层 。 
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图 13-4 ”wtite proxy 模 式 


write proxy 模 式 中 ， 当 cache pool 处 于 cache miss 状 态 时 ， 直 接 写 入 base pool， 降 低 了 写 操作 的 延迟 ， 提 高 了 写 操作 的 性 能 。 


5.read only 模 式 


read only 模 式 也 称 为 : write-around 或 者 read cache。 读 请 求 直接 发 送 给 cache pool， 写 请 求 并 不 经 过 cache pool， 而 是 直接 发 送 给 base pool。 


这 种 方式 下 ，cache pool 设 置 为 单 副本 ， 极 大 地 减少 缓存 空间 的 占用 库 。 当 cache pool 层 失效 时 ， 也 不 会 有 数据 丢失 。 这 种 模式 比较 适合 数据 一 次 写 入 多 次 读 取 的 应 用 场景 。 例 如 图 片 、 视 频 、 音 频 等 
的 读 写 操作 。 


13.4 ”Cache Tier 的 源码 分 析 


Cache Tier 的 代码 分 布 在 Ceph 源 代码 的 各 个 模块 ， 其 核心 在 对 象 的 数据 读 写 路 径 上 。 下 面 就 着 重 分 析 相 关 的 数据 结构 ， 并 介绍 其 如 何 影响 对 象 读 写 路 径 的 。 


13.5 ”本章 小 结 


本 章 介绍 了 Ceph 的 Cache Tiet 的 原理 和 架构 ， 及 其 各 种 模式 ， 以 及 因 引 入 Cache Tier 而 引起 Ceph 的 读 写 路 径 上 不 同 的 处 理 。 最 后 介绍 了 Caceh Tier 后 台 的 flush 操 作 和 evict 操 作 的 处 理 过 程 。 


Ceph 的 Cache Tier 功 能 目前 在 对 象 的 访问 频率 和 热点 统计 上 的 实现 都 比较 简单 ， 有 待 后 续 实 现 更 好 的 基于 自学 习 的 Cache 算 法 。 


